IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人慶應義塾の特許一覧

特開2024-40908状態推定システム、プログラム、及び、モデル作成方法
<>
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図1
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図2
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図3
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図4
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図5
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図6
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図7
  • 特開-状態推定システム、プログラム、及び、モデル作成方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024040908
(43)【公開日】2024-03-26
(54)【発明の名称】状態推定システム、プログラム、及び、モデル作成方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240318BHJP
   G06T 7/00 20170101ALI20240318BHJP
【FI】
G06T7/20 300B
G06T7/00 350B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022145563
(22)【出願日】2022-09-13
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人日本医療研究開発機構、未来医療を実現する医療機器・システム研究開発事業ICTを活用した診療支援技術研究開発プロジェクト「表情・音声・日常生活活動の定量化から精神症状の客観的評価をリアルタイムで届けるデバイスの開発」、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100124800
【弁理士】
【氏名又は名称】諏澤 勇司
(74)【代理人】
【識別番号】100206966
【弁理士】
【氏名又は名称】崎山 翔一
(72)【発明者】
【氏名】大槻 知明
(72)【発明者】
【氏名】ソコウ テイ
(72)【発明者】
【氏名】モンデル ボアジジ
(72)【発明者】
【氏名】岸本 泰士郎
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096FA66
5L096FA69
5L096HA02
5L096KA04
(57)【要約】
【課題】プライバシーが保護されながら、精神状態の推定精度が確保され得る状態推定システムを提供する。
【解決手段】状態推定システムは、画像情報取得部と状態推定部とを備えている。画像情報取得部は、複数の画像の画像情報を取得する。複数の画像は、生体の顔を示す映像に含まれている。状態推定部は、上記画像情報に基づいて生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。状態推定部は、時間変化情報に基づいて、生体の精神状態を推定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
生体の顔を示す映像に含まれている複数の画像の画像情報を取得する画像情報取得部と、
前記画像情報に基づいて前記生体の精神状態を推定する状態推定部と、を備えており、
前記複数の画像の各々の前記画像情報は、前記顔を示す複数の特徴点の時間変化情報を含んでおり、
前記状態推定部は、前記時間変化情報に基づいて、前記生体の精神状態を推定する、状態推定システム。
【請求項2】
前記時間変化情報と前記生体の精神状態を示す情報とを関連付けている推定モデルを格納している格納部をさらに備え、
前記状態推定部は、前記画像情報取得部によって取得された前記画像情報の前記時間変化情報と、前記格納部に格納されている前記推定モデルとに基づいて、前記生体の精神状態を推定する、請求項1に記載の状態推定システム。
【請求項3】
学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含む学習データセットを用いた学習によって、前記画像情報の入力によって前記生体の精神状態を示す情報を出力する前記推定モデルを作成するモデル作成部と、をさらに備え、
前記状態推定部は、前記画像情報取得部によって取得された前記画像情報と前記推定モデルとに基づいて、前記生体の精神状態を推定する、請求項2に記載の状態推定システム。
【請求項4】
前記時間変化情報は、前記複数の特徴点間の距離の時間変化情報、及び、前記複数の特徴点の各々の位置の時間変化情報のうちの少なくとも1つを含んでいる、請求項1に記載の状態推定システム。
【請求項5】
前記画像情報取得部は、基準点に対する前記複数の特徴点の相対位置に基づいて前記時間変化情報を演算し、
前記基準点は、前記生体の顔における、鼻の位置、唇の位置、前記鼻と前記唇との間の位置、又は、鼻及び唇の周辺の位置に配置されている、請求項1に記載の状態推定システム。
【請求項6】
学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含む学習データセットを取得することと、
前記学習データセットを用いた学習によって、生体の顔を示す映像に含まれている複数の画像の画像情報の入力によって前記生体の精神状態の情報を出力する推定モデルを作成することと、をコンピュータに実行させ、
前記複数の学習用画像の各々の前記学習用画像情報は、前記学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる、
前記複数の画像の各々の前記画像情報は、前記生体の顔を示す複数の特徴点の時間変化情報を含んでいる、プログラム。
【請求項7】
学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含む学習データセットを取得することと、
前記学習データセットを用いた学習によって、生体の顔を示す映像に含まれている複数の画像の画像情報の入力によって前記生体の精神状態の情報を出力する推定モデルを作成することと、を含んでおり、
前記複数の学習用画像の各々の前記学習用画像情報は、前記学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる、
前記複数の画像の各々の前記画像情報は、前記生体の顔を示す複数の特徴点の時間変化情報を含んでいる、モデル作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、状態推定システム、プログラム、及び、モデル作成方法に関する。
【背景技術】
【0002】
生体の精神状態を推定する技術が知られている。例えば、非特許文献1には、言語モデルを用いて、生体の精神状態を推定する技術が記載されている。この文献において、言語パターンの違いに基づいて、認知症の患者と健康な人とを識別することが試みられている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】C.Zheng, M. Bouazizi, and T. Ohtsuki, “Dementia DetectionUsing Two Perplexity Methods with Part-of-Speech Tags,”2021 International Conference on Emerging Technologies for Communications(ICETC2021), Tokyo, Japan, Dec. 2021.
【発明の概要】
【発明が解決しようとする課題】
【0004】
生体の精神状態は、生体の言語パターン及び生体の表情などに影響する。たとえば、認知症等の精神疾患によって、生体の言語パターン及び生体の表情が変化する。このため、生体を撮像した映像を用いて、精神状態を推定することが考えられる。しかしながら、このような推定の精度を確保する技術は、未だ確立されていない。生体の背景によって、誤識別が生じるおそれもある。生体を撮像した映像が用いられる場合、プライバシー侵害の問題も生じうる。
【0005】
本発明の一つの態様は、プライバシーが保護されながら、精神状態の推定精度が確保され得る、状態推定システム、プログラム、及び、モデル作成方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一つの態様における状態推定システムは、画像情報取得部と状態推定部とを備えている。画像情報取得部は、複数の画像の画像情報を取得する。複数の画像は、生体の顔を示す映像に含まれている。状態推定部は、上記画像情報に基づいて生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。状態推定部は、時間変化情報に基づいて、生体の精神状態を推定する。
【0007】
本発明の別の態様におけるプログラムは、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって前記生体の精神状態を示す情報を出力するモデルを作成することと、をコンピュータに実行させる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。
【0008】
本発明のさらに別の態様におけるモデルの作成方法は、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成することと、を含んでいる。学習データセットは、学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含んでいる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。
【発明の効果】
【0009】
本発明の一つの態様は、プライバシーが保護されながら、精神状態の推定精度が確保され得る、状態推定システム、プログラム、及び、モデル作成方法を提供する。
【図面の簡単な説明】
【0010】
図1】本実施形態における状態推定システムのブロック図である。
図2】(a)及び(b)は、健康な人のFaceMeshの例を示している。
図3】(a)及び(b)は、認知症の患者のFaceMeshの例を示している。
図4】画像情報のデータ構造の一例を示している。
図5】推定モデルの構造の一例を示している。
図6】状態推定システムのハードウェア構成の一例を示す図である。
図7】状態推定方法の学習フェーズにおけるフローチャートである。
図8】状態推定方法の推定フェーズにおけるフローチャートである。
【発明を実施するための形態】
【0011】
[本開示の実施形態の説明]
【0012】
最初に本開示の実施形態を列記して説明する。
【0013】
[1]本開示の実施形態における状態推定システムは、画像情報取得部と状態推定部とを備えている。画像情報取得部は、複数の画像の画像情報を取得する。複数の画像は、生体の顔を示す映像に含まれている。状態推定部は、上記画像情報に基づいて生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。状態推定部は、時間変化情報に基づいて、生体の精神状態を推定する。
【0014】
上記[1]における状態推定システムにおいて、状態推定部は、生体の顔を示す映像に含まれている複数の画像の画像情報に基づいて、生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。この場合、特徴点の時間変化情報が得られれば生体の精神状態が推定されるため、プライバシーの保護が図られうる。さらに、生体の精神状態の推定精度が確保され得る。
【0015】
[2]上記[1]の状態推定システムは、格納部をさらに備えてもよい。格納部は、時間変化情報と生体の精神状態を示す情報とを関連付けている推定モデルを格納していてもよい。状態推定部は、画像情報取得部によって取得された画像情報の時間変化情報と、格納部に格納されている推定モデルとに基づいて、生体の精神状態を推定してもよい。この場合、生体の精神状態の推定精度が向上され得る。
【0016】
[3]上記[2]の状態推定システムは、モデル作成部をさらに備えていてもよい。モデル作成部は、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成してもよい。学習データセットは、複数の学習用画像の学習用画像情報と、学習用生体の精神状態を示す情報とを含んでいてもよい。複数の学習用画像の学習用画像情報は、学習用生体の顔を示す映像に含まれていてもよい。状態推定部は、画像情報取得部によって取得された画像情報と前記推定モデルとに基づいて、生体の精神状態を推定してもよい。この場合、推定モデルが適宜作成され得るため、生体の精神状態の推定精度が向上され得る。
【0017】
[4]上記[1]から[3]のいずれか一つの状態推定システムにおいて、時間変化情報は、複数の特徴点間の距離の時間変化情報、及び、複数の特徴点の各々の位置の時間変化情報のうちの少なくとも1つを含んでいてもよい。この場合、生体の精神状態の推定精度がさらに向上され得る。
【0018】
[5]上記[1]から[4]のいずれか一つの状態推定システムにおいて、画像情報取得部は、基準点に対する複数の特徴点の相対位置に基づいて時間変化情報を演算してもよい。基準点は、生体の顔における、鼻の位置、唇の位置、鼻と唇との間の位置、又は、鼻及び唇の周辺の位置に配置されていてもよい。この場合、基準点の移動が縮小され、生体の精神状態の推定精度がさらに向上され得る。
【0019】
[6]本開示の別の形態におけるプログラムは、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって前記生体の精神状態を示す情報を出力するモデルを作成することと、をコンピュータに実行させる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。
【0020】
[7]本開示のさらに別の形態におけるモデル作成方法は、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成することと、を含んでいる。学習データセットは、学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含んでいる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。
[本開示の実施形態の詳細]
【0021】
以下、図面を参照しつつ本発明における状態推定システムの実施形態について詳細に説明する。なお、図面の説明においては、同一又は相当部分には同一符号を付し、重複する説明を省略する。
【0022】
まず、図1から図5を参照して、本開示の実施形態における状態推定システムの概略構成について説明する。図1は、本実施形態における状態推定システム1のブロック図である。
【0023】
状態推定システム1は、生体の顔を示す映像に基づいて、生体の精神状態を推定する。本明細書において、「生体」は、人、及び、人以外の動物を含んでいる。本明細書において、「精神状態」は、感情の状態、及び、精神疾患の状態を含んでいる。精神疾患は、たとえば、痴呆、双極性障害、及び、鬱を含んでいる。
【0024】
本実施形態に示す例において、状態推定システム1は、学習フェーズ、及び、推定フェーズを実行する。状態推定システム1は、学習フェーズにおいて学習された推定モデルに基づいて、推定フェーズを実行する。状態推定システム1は、推定フェーズにおいて、生体の顔を示す映像に基づいて、生体の精神状態を推定する。状態推定システム1は、推定フェーズにおいて取得された情報に基づいて、さらに学習フェーズを実行してもよい。
【0025】
たとえば、状態推定システム1は、学習フェーズにおける推定モデルの作成において機械学習を利用する。機械学習とは、与えられた情報に基づいて反復的に学習することで法則又はルールを自律的に見つけ出す手法である。たとえば、状態推定システム1において行われる機械学習では、学習データセットを用いた学習によって、活性化関数、重み付け値等の推定モデルのパラメータが最適化される。これによって、推定モデルが作成される。
【0026】
状態推定システム1において行われる機械学習は、ディープラーニングである。この機械学習は、多層パーセプトロン(MLP:Multilayer perceptron)によって構成される教師あり学習である。状態推定システム1は、ニューラルネットワークを含むように構成される機械学習を用いる。状態推定システム1において行われる機械学習は、教師あり学習に限定されない。状態推定システム1において行われる機械学習は、ランダムフォレスト、サポートベクトルマシン、ニューラルネットワーク(NN)、ディープニューラルネットワーク(DNN)などを含むように構成されてもよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理モデルをいう。
【0027】
たとえば、状態推定システム1において用いられるニューラルネットワークは、長短期メモリネットワーク(LSTM:Long Short―Term Memory)である。たとえば、状態推定システム1において用いられるニューラルネットワークは、2層のLSTM層と、3層のDense層とを含んでいる。状態推定システム1で用いられるニューラルネットワークの種類はこれに限定されない。
【0028】
状態推定システム1は、推定フェーズにおいて動作する推定部10と学習フェーズにおいて動作する学習部20とを備えている。状態推定システム1は、推定部10として、撮像装置11と、映像取得部12と、画像情報取得部13と、正規化部14と、格納部15と、状態推定部16と、出力部18とを含んでいる。状態推定システム1は、学習部20として、撮像装置11と、映像取得部12と、画像情報取得部13と、正規化部14と、格納部15と、モデル作成部21と、を含んでいる。
【0029】
本実施形態の変形例として、推定部10と学習部20とは互いに分離していてもよい。この場合、推定部10と学習部20とは、それぞれ異なる撮像装置11と、映像取得部12と、画像情報取得部13と、正規化部14と、格納部15とを備えていてもよい。
【0030】
本実施形態の変形例として、状態推定システム1は、モデル作成部21を含まず、推定部10のみから構成されていてもよい。状態推定システム1は、学習部20のみから構成された学習システムであってもよい。状態推定システム1は、撮像装置11を備えず、状態推定システム1の外部に配置された撮像装置から映像を取得してもよい。
【0031】
次に、推定フェーズにおける状態推定システム1の各機能部について、より詳細に説明する。推定フェーズにおいては、推定部10が動作する。推定部10は、撮像装置11と、映像取得部12と、画像情報取得部13と、格納部15と、状態推定部16と、出力部18とによって、生体の精神状態を推定し、出力する。推定部10は、画像情報取得部13によって複数の画像の画像情報を取得し、生体の精神状態を推定する。
【0032】
撮像装置11は、映像を撮像する。推定フェーズにおいて、撮像装置11は、生体の顔を示す映像を撮像する。撮像装置11は、たとえば、ビデオカメラである。撮像装置11は、状態推定システム1の外部において、状態推定システム1と別体に設けられていてもよい。
【0033】
映像取得部12は、撮像装置11から、生体の顔を示す映像を取得する。映像取得部12によって取得される映像は、互いに異なる時間における複数の画像を含んでいる。換言すれば、映像取得部12によって取得される映像は、時間的に連続する複数の画像を含んでいる。本実施形態の変形例として、映像取得部12は、状態推定システム1の外部から、生体の顔を示す映像を取得してもよい。
【0034】
画像情報取得部13は、映像取得部12によって取得された映像から画像情報を取得する。画像情報取得部13によって取得された画像情報は、生体の顔を示す映像に含まれる複数の画像の画像情報を含んでいる。映像に含まれる複数の画像は、映像において互いに異なる時間の状態を示す画像を含んでいる。画像情報取得部13によって取得された複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。生体の顔を示す複数の特徴点は、FaceMeshに相当する。複数の特徴点の時間変化情報は、たとえば、複数の特徴点のうちの2点間の距離の時間変化情報、及び、複数の特徴点の各々の位置の時間変化情報のうち少なくとも1つを含んでいる。複数の特徴点のうちの2点間の距離は、2点の位置情報の差分であり、スカラーであってもよいし、ベクトルであってもよい。複数の特徴点の各々の位置は、3次元空間の絶対位置であってもよいし、画像に対する相対位置であってもよいし、複数の特徴点に含まれる基準点からの相対位置であってもよい。
【0035】
たとえば、図2(a)及び図2(b)は、例として、健康な人のFaceMesh31を示している。図3(a)及び図3(b)は、例として、認知症の患者のFaceMesh32を示している。FaceMesh31は、健康な人の顔における複数の特徴点P1を含んでいる。FaceMesh32は、認知症の患者の顔における複数の特徴点P2を含んでいる。複数の特徴点P1,P2は、少なくとも一つの基準点を含んでいる。基準点は、たとえば、生体の顔における、鼻の位置、唇の位置、前記鼻と前記唇との間の位置、又は、鼻及び唇の周辺の位置に配置されている。基準点は、たとえば、複数の直腸点のうちの1つの特徴点に相当する。たとえば、複数の特徴点P1は、生体の鼻の位置を示す基準点R1を含んでいる。同様に、複数の特徴点P2は、生体の鼻の位置を示す基準点R2を含んでいる。画像情報取得部13は、たとえば、基準点R1,R2に対する複数の特徴点P1,P2の相対位置に基づいて、複数の特徴点P1,P2の時間変化情報を演算する。
【0036】
図4は、映像に含まれる複数の画像の画像情報のデータ構造の一例を示している。図4において、互いに異なる時間における複数の画像の複数の特徴点P1の位置情報が、行列状に配列されている。互いに異なる時間における同一の特徴点P1の位置情報は、左右方向に配列されている。矢印αは、時間の流れを示している。したがって、互いに異なる時間における同一の特徴点P1の位置情報は、矢印αに沿った方向に配列されている。同一の特徴点P1の位置情報は、M個存在している。たとえば、10分間の映像において、30fpsで画像が取得される場合、同一の特徴点P1の位置情報は、18000個存在している。
【0037】
同一の画像における複数の特徴点P1の位置情報は、縦方向に配列されている。換言すれば、同一の画像における複数の特徴点P1の位置情報は、矢印αと直交する方向に配列されている。同一の画像において、複数の特徴点P1は、N個存在している。たとえば、1つの画像において、478個の特徴点P1の位置情報が配置されている。
【0038】
各特徴点P1の時間変化情報は、たとえば、矢印αに沿った方向において互いに隣り合う特徴点P1の位置情報の差分である。たとえば、図4において、矢印αに沿った方向に特徴点P11,P12,P13の位置情報が配列されている。特徴点P11の位置情報と特徴点P12の位置情報とは、グループGに含まれており、互いに隣り合っている。特徴点P11の位置情報と特徴点P12の位置情報との差分が、時間変化情報に相当する。たとえば、画像において、特徴点P11の位置座標が(x1,y1)であり、特徴点P12の位置座標が(x2,y2)である場合、特徴点P1の時間変化情報は、(x2-x1,y2-y1)によって表されうる。各特徴点P1の位置座標は、基準点R1に対する相対座標であってもよい。
【0039】
正規化部14は、生体の顔を示す映像に含まれる複数の画像において、画像に表示される顔の大きさを正規化する。たとえば、正規化部14は、生体の顔を示す映像に含まれる複数の画像を、画像に表示される顔が予め決められた大きさになるように調整する。
【0040】
格納部15は、映像取得部12及び画像情報取得部13によって取得された各種情報を格納している。推定フェーズにおいて、格納部15は、生体の顔を示す映像に含まれる複数の画像の画像情報と、生体の精神状態を示す情報とを関連付けている推定モデルを格納している。格納部15は、たとえば、推定モデルの他、映像取得部12によって取得される映像、及び、画像情報取得部13によって取得された画像情報の少なくとも一つを格納していてもよい。
【0041】
推定モデルは、モデル作成部21によって作成される。推定モデルは、たとえば、生体の顔を示す複数の特徴点の時間変化情報と、生体の精神状態を示す情報とを関連付けている。推定モデルは、たとえば、画像情報取得部13において取得された画像情報の入力によって、生体の精神状態を示す情報を出力とするように学習されたモデルを含んでいる。
【0042】
推定モデルは、たとえば、入力層と、中間層と、出力層とを備えている。入力層は、複数のノードを含む。中間層は、それぞれが1つ以上のノードを含む1つ以上の層からなる。中間層は、たとえば、2層のLSTM層と全結合層(FC:Fully Connected layer)とを含んでいる。推定モデルは、個々のノードの活性化関数、又は個々のノード間の出力における重み付け値等の各種のパラメータによって規定されている。これらのパラメータは、上述した学習フェーズにおいて最適なパラメータに設定されている。たとえば、推定モデルは、生体の顔を示す複数の特徴点の時間変化情報を入力層に入力し、中間層にて演算し、出力層から生体の精神状態を示す情報を出力するようコンピュータを機能させる。中間層は、入力層と出力層とを接続する隠れ層である。中間層には、入力層から出力されたデータが入力される。中間層において、入力層から出力されたデータが変換される。中間層から出力されたデータは、出力層に入力される。中間層は、学習データセットを用いてパラメータの学習がなされている。
【0043】
図5は、推定モデルの構造の一例を示している。矢印αは、時間の流れを示している。入力層Iは、複数のノードS1を含んでいる。複数のノードS1は、互いに異なる時間における時間変化情報を示している。LSTM層L1は複数のノードS2を含んでおり、LSTM層L2は複数のノードS3を含んでいる。複数のノードS2の各々は、複数のノードS1のうち対応するノードS1に接続されている。複数のノードS3の各々は、複数のノードS2のうち対応するノードS2に接続されている。全結合層は、たとえば、互いに連続する3つのDence層D1,D2,D3を含んでる。Dence層D1は、LSTM層L2に接続されている。Dence層D2は、Dence層D1に接続されている。Dence層D3は、Dence層D2に接続されている。
【0044】
状態推定部16は、画像情報に基づいて、生体の精神状態を推定する。状態推定部16は、画像情報取得部13によって取得された複数の特徴点の時間変化情報に基づいて、生体の精神状態を推定する。状態推定部16は、格納部15に格納されている推定モデルを取得する。状態推定部16は、取得された推定モデルと時間変化情報とから、生体の精神状態を推定する。状態推定部16は、画像情報取得部13によって取得された複数の特徴点の時間変化情報を推定モデルに入力し、推定モデルから出力された生体の精神状態を示す情報を、推定結果として出力する。
【0045】
出力部18は、状態推定部16によって推定された生体の精神状態を示す情報を、状態推定システム1の外部に出力する。たとえば、出力部18は、状態推定部16によって推定された生体の精神状態を示す情報を不図示のモニタに表示する。出力部18は、状態推定部16によって推定された生体の精神状態を示す情報を、通信ネットワークなどを介して、サーバ端末又は他の端末に出力してもよい。
【0046】
次に、学習フェーズにおける状態推定システム1の各機能部について、より詳細に説明する。学習フェーズにおいては、学習部20が動作する。学習部20は、種々情報を含む学習データセットを用いて学習された推定モデルを作成する。学習部20は、たとえば、撮像装置11と、映像取得部12と、画像情報取得部13と、格納部15と、モデル作成部21とよって、推定モデルを作成する。学習部20は、たとえば、撮像装置11、映像取得部12、画像情報取得部13、格納部15、及び、モデル作成部21によって学習データセットを取得し、推定モデルを作成する。
【0047】
学習データセットは、たとえば、学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、学習用生体の精神状態を示す情報とを含んでいる。学習データセットにおいて、学習用画像情報と、学習用生体の精神状態を示す情報とが互いに紐付けられている。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。「学習用生体」は、予め精神状態が知られている学習用の生体である。学習フェーズにおいても、撮像装置11、映像取得部12、及び、画像情報取得部13が動作する。この場合、推定フェーズにおける処理と同様の処理が、生体を学習用生体に置き換えて実行される。
【0048】
学習フェーズにおいて、撮像装置11は、学習用生体の顔を示す映像を撮像する。映像取得部12は、学習用生体の顔を示す映像を取得する。画像情報取得部13は、映像取得部12によって取得された映像から学習用画像情報を取得する。学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。画像情報取得部13は、映像取得部12によって取得された映像から学習用画像情報を取得せずに、通信ネットワーク等を介して学習用画像情報を取得してもよい。
【0049】
学習フェーズにおいて、格納部15は、学習データセットと、モデル作成部21によって作成された推定モデルとを格納する。学習フェーズにおいて、格納部15は、たとえば、学習用生体の精神状態を示す情報を予め格納している。学習フェーズにおいて、格納部15は、たとえば、画像情報取得部13によって取得された学習用画像情報を格納する。学習フェーズにおいて、格納部15は、たとえば、学習用生体の顔を示す映像、及び、学習用画像情報の少なくとも一方を予め格納していてもよい。学習フェーズにおいて、画像情報取得部13及び格納部15の少なくとも一方から、学習データセットがモデル作成部21に入力される。
【0050】
モデル作成部21は、学習データセットを用いた学習によって、上述した推定モデルを作成する。推定モデルは、画像情報の入力によって生体の精神状態を示す情報を出力する。たとえば、モデル作成部21は、作成した推定モデルを格納部15に格納する。モデル作成部21は、推定フェーズにおいて取得された情報に基づいて、推定モデルを再作成、又は、更新してもよい。モデル作成部21は、学習フェーズの終了後に、状態推定システム1から除外されてもよい。
【0051】
次に、図6を参照して、状態推定システム1のハードウェア構成について説明する。図6は、状態推定システム1のハードウェア構成の一例を示す図である。図6に示されている例において、状態推定システム1の推定部10と学習部20とは、一体に構成されている。
【0052】
状態推定システム1は、上述した撮像装置11に加えて、プロセッサ101と、主記憶装置102と、補助記憶装置103と、通信装置104と、入力装置105と、出力装置106と、表示装置107とを備えている。状態推定システム1は、これらのハードウェアと、プログラム等のソフトウェアとにより構成された1又は複数のコンピュータを含んでいる。映像取得部12、画像情報取得部13、格納部15、状態推定部16、出力部18、及び、モデル作成部21のそれぞれは、1つのコンピュータによって構成されていてもよいし、複数のコンピュータによって構成されていてもよい。状態推定システム1は、ハードウェアと協働して実現されている。
【0053】
状態推定システム1が、複数のコンピュータによって構成される場合には、これらのコンピュータはローカルで接続されてもよいし、インターネット又はイントラネットなどの通信ネットワークを介して接続されてもよい。この接続によって、論理的に1つの状態推定システム1が構築される。
【0054】
プロセッサ101は、オペレーティングシステム及びアプリケーション・プログラムなどを実行する。主記憶装置102は、ROM(Read Only Memory)及びRAM(Random Access Memory)により構成される。たとえば、状態推定システム1の各種機能部の少なくとも一部は、プロセッサ101及び主記憶装置102によって実現され得る。
【0055】
補助記憶装置103は、ハードディスク及びフラッシュメモリなどにより構成される記憶媒体である。補助記憶装置103は、一般的に主記憶装置102よりも大量のデータを記憶する。たとえば、格納部15の少なくとも一部は、補助記憶装置103によって実現され得る。
【0056】
通信装置104は、ネットワークカード又は無線通信モジュールにより構成される。たとえば、映像取得部12、画像情報取得部13、及び、出力部18の少なくとも一部は、通信装置104によって実現され得る。入力装置105は、キーボード、マウス、及び、タッチパネルなどにより構成される。たとえば、画像情報取得部13の少なくとも一部は、入力装置105によって実現され得る。出力装置106は、プリンタなどにより構成される。たとえば、出力部18の少なくとも一部は、出力装置106によって実現され得る。表示装置107は、ディスプレイなどによって構成されている。たとえば、出力部18の少なくとも一部は、表示装置107によって実現され得る。たとえば、表示装置107は、出力部18の少なくとも一つにおいて作成された画像をディスプレイに表示する。
【0057】
補助記憶装置103は、予め、プログラム及び処理に必要なデータを格納している。このプログラムは、状態推定システム1の各機能要素をコンピュータに実行させる。このプログラムによって、たとえば、後述する状態識別方法における各処理がコンピュータにおいて実行される。このプログラムは、たとえば、CD-ROM、DVD-ROM、半導体メモリなどの有形の記録媒体に記録された上で提供されてもよい。このプログラムは、データ信号として通信ネットワークを介して提供されてもよい。
【0058】
次に、図7を参照して、状態推定方法について説明する。たとえば、状態推定方法は、推定モデルのモデル作成方法を含んでおり、推定モデルを作成する学習フェーズと作成された推定モデルを用いて生体の精神状態の推定を実行する推定フェーズとを実行する。まず、図7を参照して、学習フェーズにおけるモデル作成方法について説明する。図7は、モデル作成方法の一例を示すフローチャートである。
【0059】
まず、撮像装置11の位置調整が実行される(処理S1)。たとえば、撮像装置11と生体との相対位置が調整される。たとえば、生体と撮像装置11との相対位置に応じて、撮像装置11の画角が調整される。
【0060】
次に、学習用画像情報が取得される(処理S2)。処理S2において、画像情報取得部13によって、学習用画像情報が取得される。処理S2において取得される学習用画像情報は、学習用生体の映像に含まれる複数の学習用画像の画像情報である。たとえば、撮像装置11によって、学習用生体の顔を示す映像が撮像され、映像取得部12によって、撮像装置11によって撮像された映像が取得され、画像情報取得部13によって、映像取得部12によって取得された映像から学習用画像情報が取得される。この際、画像情報取得部13は、複数の学習用画像において、学習用生体の顔を示す複数の特徴点の相対位置を正規化してもよい。たとえば、画像情報取得部13は、映像取得部12によって取得された映像に含まれる複数の学習用画像の画角を調整し画角が調整された学習用画像の学習用画像情報を取得してもよい。
【0061】
次に、学習用生体の精神状態を示す情報が取得される(処理S3)。処理S3において、たとえば、学習用生体の精神状態を示す情報が格納部15に格納される。処理S2において取得された学習用画像情報と、処理S3において取得された学習用生体の精神状態を示す情報とに基づいて、学習データセットが格納部15に格納される。学習データセットにおいて、処理S2において取得された学習用画像情報と、処理S3において取得された学習用生体の精神状態を示す情報とが互いに紐付けられている。
【0062】
次に、推定モデルが作成される(処理S4)。処理S4において、たとえば、モデル作成部21が、学習データセットを用いた学習によって、推定モデルを作成する。作成された推定モデルは、画像情報の入力によって生体の精神状態を示す情報を出力する。
【0063】
次に、推定モデルが格納部15に格納される(処理S5)。処理S5において、たとえば、モデル作成部21が、処理S4において作成された推定モデルを格納部15に格納する。
【0064】
以上、推定モデルのモデル作成方法の一例について説明したが、各処理の順序はこれに限定されない。たとえば、処理S3は、処理S2の前に実行されてもよい。処理S1が省略され、処理S2において取得される情報は、状態推定システム1の外部から取得されてもよい。
【0065】
次に、図8を参照しながら、推定フェーズにおける状態推定方法について説明する。図8は、状態推定方法の一例を示すフローチャートである。
【0066】
まず、撮像装置11の位置調整が実行される(処理S21)。たとえば、撮像装置11と生体との相対位置が調整される。たとえば、生体と撮像装置11との相対位置に応じて、撮像装置11の画角が調整される。たとえば、学習用画像情報における学習用生体の位置に応じて、撮像装置11の画角が調整される。
【0067】
次に、画像情報が取得される(処理S22)。処理S22において、画像情報取得部13によって、画像情報が取得される。処理S22において取得される画像情報は、生体の映像に含まれる複数の画像の画像情報である。たとえば、撮像装置11によって、生体の顔を示す映像が撮像され、映像取得部12によって、撮像装置11によって撮像された映像が取得され、画像情報取得部13によって、映像取得部12によって取得された映像から画像情報が取得される。この際、画像情報取得部13は、映像に含まれる複数の画像において、生体の顔を示す複数の特徴点の相対位置を正規化してもよい。たとえば、画像情報取得部13は、映像取得部12によって取得された映像に含まれる複数の画像の画角を調整し画角が調整された画像の画像情報を取得してもよい。
【0068】
次に、生体の精神状態が推定される(処理S23)。処理S23において、たとえば、状態推定部16が、処理S22において取得された画像情報と、格納部15に予め格納されている推定モデルとに基づいて、生体の精神状態を推定する。たとえば、状態推定部16は、生体の顔を示す複数の特徴点の時間変化情報を、推定モデルに入力し、この推定モデルから出力された情報を推定結果として決定する。
【0069】
次に、推定結果が出力される(処理S24)。処理S24において、たとえば、出力部18が、状態推定部16によって推定された生体の精神状態を、推定結果として状態推定システム1の外部に出力する。
【0070】
次に、上述した実施形態にかかる状態推定システム1、及び、推定モデルのモデル作成方法による作用効果について説明する。
【0071】
状態推定システム1において、状態推定部16は、生体の顔を示す映像に含まれている複数の画像の画像情報に基づいて、生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。この場合、特徴点の時間変化情報が得られれば生体の精神状態が推定されるため、プライバシーの保護が図られうる。さらに、生体の精神状態の推定精度が確保され得る。
【0072】
状態推定システム1は、格納部15をさらに備えている。格納部15は、時間変化情報と生体の精神状態を示す情報とを関連付けている推定モデルを格納している。状態推定部16は、画像情報取得部13によって取得された画像情報の時間変化情報と、格納部15に格納されている推定モデルとに基づいて、生体の精神状態を推定している。この場合、生体の精神状態の推定精度が向上され得る。
【0073】
状態推定システム1は、モデル作成部21をさらに備えている。モデル作成部21は、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成している。学習データセットは、複数の学習用画像の学習用画像情報と、学習用生体の精神状態を示す情報とを含んでいる。複数の学習用画像の学習用画像情報は、学習用生体の顔を示す映像に含まれている。状態推定部16は、画像情報取得部13によって取得された画像情報と推定モデルとに基づいて、生体の精神状態を推定している。この場合、推定モデルが適宜作成され得るため、生体の精神状態の推定精度が向上され得る。
【0074】
状態推定システム1において、時間変化情報は、複数の特徴点間の距離の時間変化情報、及び、複数の特徴点の各々の位置の時間変化情報のうちの少なくとも1つを含んでいる。この場合、生体の精神状態の推定精度がさらに向上され得る。
【0075】
状態推定システム1において、画像情報取得部13は、基準点に対する複数の特徴点の相対位置に基づいて時間変化情報を演算してもよい。基準点は、生体の顔における、鼻の位置、唇の位置、鼻と唇との間の位置、又は、鼻及び唇の周辺の位置に配置されている。この場合、基準点の移動が縮小され、生体の精神状態の推定精度がさらに向上され得る。
【0076】
次に、上述した状態推定システム1の検証の一例を説明する。モデル作成部21において、映像から抽出されたFaceMeshが用いられ、映像のうち最初の4096フレームの学習用画像の学習号画像情報が学習データセットに用いられた場合、推定精度は70%であった。モデル作成部21において、映像から抽出されたFaceMeshが用いられ、映像の2分間分の学習用画像の学習用画像情報が学習データセットに用いられた場合、推定精度は70%であった。モデル作成部21において、静止画から抽出されたFaceMeshが用いられ、映像の2分間分の学習用画像の学習用画像情報が学習データセットに用いられた場合、検証データの精度は78%であった。モデル作成部21において、映像から抽出されたFaceMeshが用いられ、映像のうち1分間の長さに分割されたセグメントの学習用画像の学習用画像情報が学習データセットに用いられた場合、推定精度は67%であった。状態推定システム1において、認知症患者と健康な人との推定精度は70%であった。このように、状態推定システム1による検証データによれば、精神状態の推定において非常に高い精度が確認された。
【0077】
以上、本発明の実施形態及び変形例について説明してきたが、本発明は必ずしも上述した実施形態及び変形例に限定されるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。
【0078】
たとえば、生体の精神状態の推定において、精神疾患の状態の推定を主に説明した。しかしながら、状態推定システム1は、生体の感情の状態を推定してもよい。
【符号の説明】
【0079】
1…状態推定システム、10…推定部、P1,P2,P11,P12,P13…特徴点、13…画像情報取得部、15…格納部、16…状態推定部、21…モデル作成部、R1,R2…基準点。
図1
図2
図3
図4
図5
図6
図7
図8