(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム
(51)【国際特許分類】
G06T 7/20 20170101AFI20231129BHJP
G10L 15/25 20130101ALI20231129BHJP
【FI】
G06T7/20 300B
G10L15/25
(21)【出願番号】P 2020007633
(22)【出願日】2020-01-21
【審査請求日】2022-12-23
(32)【優先日】2019-01-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】アインファルト モリッツ.ウェルナー.アマデウス
(72)【発明者】
【氏名】ケネディー リンドン
(72)【発明者】
【氏名】リー マシュー
(72)【発明者】
【氏名】リーエンハルト ライナー.ヴォルフガング
(72)【発明者】
【氏名】リン ディー. ウィルコックス
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2013-045282(JP,A)
【文献】特開2011-191423(JP,A)
【文献】特開2007-248529(JP,A)
【文献】特開2019-212098(JP,A)
【文献】香月 哲,口唇・顎の開閉運動解析および音声特徴抽出による発話診断支援,電子情報通信学会技術研究報告 Vol.98 No.638,日本,社団法人電子情報通信学会,1999年03月04日,SP98-147 (1999-03),P.9-16
【文献】景山 陽一,発話に伴う口唇の動き特徴を用いた心情変化の検出,電気学会論文誌C ,日本,(社)電気学会,2011年01月01日,Vol.131 No.1,P.201-209
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
G10L 15/25
(57)【特許請求の範囲】
【請求項1】
ユーザの状態を評価する、コンピュータに実装される方法であって、
受信した入力ビデオに顔のランドマーク(landmark)を生成して、前記ユーザの顔の関心領域に関連する点を定義し、
前記定義された点のそれぞれの位置に基づいて会話の期間を定義し、
前記会話の期間中に、休止頻度、繰り返しパターン、及び語彙の多様性を測定し、
前記測定を集約して、前記ユーザの状態を予測する予測情報を生成すること、
を含む方法。
【請求項2】
前記顔のランドマークを生成することは、前記ユーザの口を含む前記関心領域について、前記ユーザの唇の輪郭を描く前記定義された点を定義し、前記定義された点の時間的類似性尺度を経時的に測定し、体の動きと頭の動きとを前記時間的類似性尺度から除去して前記口の時間的非類似性尺度を生成すること、
を含む、請求項1に記載の方法。
【請求項3】
前記会話の期間を定義することは、口のジッタ及び面外回転に関連する口の動きを除去し、前記唇の上唇と下唇との間の垂直距離を測定し、閉鎖演算を実行して前記会話の期間を示す会話スコアを生成すること、
を含む、請求項2に記載の方法。
【請求項4】
前記休止頻度を測定することは、前記会話スコアに閾値を適用し、前記会話の期間中の会話非活動期間を前記休止頻度として登録すること、
を含む、請求項3に記載の方法。
【請求項5】
前記繰り返しパターンを測定することは、それぞれの第1及び第2の時間間隔の長さを有する前記会話の期間中の第1及び第2の口の動きのパターンを定義し、非類似性比較を行って一定期間にわたる繰り返し回数を取得すること、
を含む、請求項1に記載の方法。
【請求項6】
前記語彙の多様性を測定することは、前記パターンのうち繰り返しパターンを選択することにより、一定数のクラスタを用いたクラスタリング(clustering)を使用して、前記入力ビデオ全体で一定数の語彙パターンを収集及び集約し、前記一定数の語彙パターンにわたって口の動きを再構成して、口の動きの多様性のスコアを示す再構成コストを生成すること、
を含む、請求項1に記載の方法。
【請求項7】
前記語彙の多様性は、前記語彙の言語を識別することなく測定される、請求項6に記載の方法。
【請求項8】
前記予測情報を生成することは、特定の状態を有するユーザと前記特定の状態を有しないユーザとの間の分離機能を学習するために決定木又はサポートベクターマシンを適用することをさらに含む、請求項1に記載の方法。
【請求項9】
ユーザの状態を判定するサーバであって、
入力ビデオを受信し、前記受信した入力ビデオに対して顔のランドマーク生成動作を実行して、関心領域に関連付けられた点を定義し、
前記関心領域に関連付けられた点のそれぞれの位置に基づいて会話の期間を定義し、
前記会話の期間中に、休止頻度、繰り返しパターン、及び語彙の多様性を測定し、
前記測定を集約して、前記ユーザの状態を予測する予測情報を生成すること
を含む動作を実行するように構成されているサーバ。
【請求項10】
前記顔のランドマークを生成することは、前記ユーザの口を含む前記関心領域について、前記患者の唇の輪郭を描く前記定義された点を定義し、前記定義された点の時間的類似性尺度を経時的に測定し、体の動きと頭の動きとを前記時間的類似性尺度から除去し、前記口の時間的非類似性尺度を生成すること、
を含む、請求項9に記載のサーバ。
【請求項11】
前記会話の期間を定義することは、前記口のジッタ及び面外回転に関連する口の動きを除去し、前記唇の上唇と下唇との間の垂直距離を測定し、閉鎖演算を実行し、前記会話の期間を示す会話スコアを生成すること、
を含む、請求項10に記載のサーバ。
【請求項12】
前記休止頻度を測定することは、前記会話スコアに閾値を適用し、前記会話の期間中の会話非活動期間を前記休止頻度として登録すること、
を含む請求項11に記載のサーバ。
【請求項13】
前記繰り返しパターンを測定することは、それぞれの第1及び第2の時間間隔の長さを有する前記会話の期間中の第1及び第2の口の動きのパターンを定義し、非類似性比較を実行して一定期間にわたる繰り返し回数を取得すること、
を含む、請求項9に記載のサーバ。
【請求項14】
前記語彙の多様性を測定することは、前記パターンのうち繰り返しパターンを選択することにより、一定数のクラスタを用いたクラスタリングを使用して、前記入力ビデオ全体で一定数の語彙パターンを収集及び集約し、前記一定数の語彙パターンにわたって口の動きを再構築して、口の動きの多様性のスコアを示す再構築コストを生成すること、
を含む、請求項9に記載のサーバ。
【請求項15】
前記語彙の多様性は、前記語彙の言語を識別することなく測定される、請求項14に記載のサーバ。
【請求項16】
前記予測情報を生成することは、特定の状態を有するユーザと前記特定の状態を有しないユーザとの間の分離機能を学習するために決定木又はサポートベクターマシンを適用することをさら に含む、請求項9に記載のサーバ。
【請求項17】
ユーザの入力ビデオを受信し、前記受信した入力ビデオに対して顔のランドマーク生成動作を実行して、関心領域に関連付けられた点を定義し、
前記関心領域に関連付けられた前記点のそれぞれの位置に基づいて会話の期間を定義し、
前記会話の期間中に、休止頻度、繰り返しパターン、及び語彙の多様性を測定し、
前記測定を集約し、測定値に関連する前記ユーザの状態を予測する予測情報を生成すること、
を含む方法をコンピュータに実行させる、プログラム。
【請求項18】
前記顔のランドマークを生成することは、前記ユーザの口を含む前記関心領域について、前記ユーザの唇の輪郭を描く前記定義された点を定義し、前記定義された点の時間的類似性尺度を経時的に測定し、体の動きと頭の動きとを前記時間的類似性尺度から除去し、前記口の時間的非類似性尺度を生成すること、を含み、
前記会話の期間を定義することは、前記口のジッタ及び面外回転に関連する口の動きを除去し、前記唇の上唇と下唇との間の垂直距離を測定し、閉鎖演算を実行して、前記会話の期間を示す会話スコアを生成すること、を含み、
前記休止頻度を測定することは、閾値を前記会話スコアに適用し、前記会話の期間中の会話の非活動期間を前記休止頻度として登録すること、を含み、
前記繰り返しパターンを測定することは、それぞれの第1及び第2時間間隔の長さを有する前記会話の期間中の第1及び第2の口の動きのパターンを定義し、非類似性比較を実行して一定期間にわたり多数の繰り返しを取得すること、を含み、
前記語彙の多様性を測定することは、前記パターンのうち繰り返しパターンを選択することにより、一定数のクラスタを用いたクラスタリングを使用して、前記入力ビデオ全体で一定数の語彙パターンを収集及び集約し、前記一定数の語彙パターンにわたって前記口の動きを再構築して、口の動きの多様性のスコアを示す再構築コストを生成すること、を含む、
請求項17にプログラム。
【請求項19】
前記語彙の多様性は、前記語彙の言語を識別することなく測定される、請求項18に記載のプログラム。
【請求項20】
前記方法は、決定木又はサポートベクターマシンを適用して前記予測情報を生成し、特定の状態を有するユーザと前記特定の状態を有しないユーザとの間の分離機能を学習すること
をさらに含む、請求項17に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
例示的な実装形態の態様は、ユーザの視覚的な顔の特徴を使用し、入力ビデオに基づいてユーザの状態を予測する予測情報を生成する方法、サーバ、プログラム、及びユーザ体験に関する。
【背景技術】
【0002】
神経学的状態を有する個人(例えば、患者)は、それらの神経学的状態の症状として発話障害を体験する場合がある。例えば、失語症は、個人が発話を理解又は生成する能力に影響を与える神経学的状態である。失語症は、脳卒中又は他の脳損傷に起因する場合があり、経時的に改善又は悪化する場合がある。失語症に関連する発話障害の程度と種類は、幅広い連続体にわたる場合がある。例えば、失語症の人は、わずかに乱れた発話(例えば、休止、言葉の繰り返し、語彙の制限など)をする場合もあれば、言葉や発話がほとんど不可能な厳しい制限がある場合もある。
【0003】
関連技術では、失語症の個人の能力の評価が行うことができる。関連技術の1つによれば、医師又はセラピストのアプローチにより、手動で失語症の判定を行うことがある。関連技術による評価は、患者の能力の広範な分類から、臨床面接記録に基づいた症状の詳細な分析にまで及ぶことがある。例えば、医療専門家が失語症に関連する症状を分析するために臨床面接記録を使用する場合、多大な時間が必要であり、患者は、臨床設定と非臨床設定とでは同じように反応しない場合があるため、結果は臨床環境外での患者の能力を表していない可能性がある。
【0004】
関連技術による評価には誤りがあり得る。さらに、面接記録は、ユーザの個人情報をさらす個人情報や機密内容などの発話内容を明らかにする場合がある。そのため、ユーザは個人情報を臨床医や他の人に漏らすリスクを負うか、あるいは失語症の療法や治療を受けないようにしなければならなくなる。
【0005】
1つの関連技術のアプローチによれば、音声情報を使用して発話能力を推測することができる。ただし、音声アプローチでは、システムが患者の会話の内容を検出する必要がある。このようなアプローチは、患者のプライバシーだけでなく機密情報の開示に関する関連技術の問題を引き起こす可能性がある。
【0006】
したがって、プライバシー保持及び機密保持できる方法で経時的に患者の能力を評価できるようにし、臨床環境で実行される分析に関連する関連技術の誤りをも回避するという、満たされていない需要がある。
【先行技術文献】
【非特許文献】
【0007】
【文献】CAO et al. "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields" In IEEE CVPR, 2017年7月
【文献】CHERNEY, L. "Oral Reading for Language in Aphasia (ORLA): Evaluating the Efficacy of Computer-Delivered Therapy in Chronic Nonfluent Aphasia" Topics in Stroke Rehabilitation, 2010年11~12月, 17(6); Thomas Land Publishers, Inc.
【文献】GOODALL, C. "Procrustes Methods in the Statistical Analysis of Shape" Journal of the Royal Statistical Society. Series IB (Methodological),1991年; 53巻第2号
【文献】KEOGH, E. et al. "Scaling up Dynamic Time Warping for Datamining Applications" In Proceedings of the sixth ACM SIGKDD, 2000年, 米国マサチューセッツ州ボストン
【文献】MACWHINNEY, B. et al. "Aphasiabank: Methods for Studying Discourse" Aphasiology, 2011年9月22日; 25巻第11号
【文献】MARTINEZ, B. et al. "Automatic Analysis of Facial Actions: A Survey" Journal of LATEX Class Files, 2014年9月; 13巻第9号
【文献】NIINUMA, K. et al. "Automatic Multi-view Face Recognition via 3D Model Based Pose Regularization" IEEE 6th International Conference on Biometrics: Theory, Applications and Systems (BTAS), 2013年9月29日~10月2日, 米国ワシントンDC
【文献】PETRIDIS, S. et al. "End-to-End Visual Speech Recognition with LSTMS" In IEEE ICASSP, 2017年3月
【文献】SAKOE, H. et al. "Dynamic Programming Algorithm Optimization for Spoken Word Recognition" IEEE Transactions on Acoustics, Speech, and Signal Processing, 1978年2月; ASSP-26巻第1号; Elsevier.
【文献】VARCHMIN, A. et al. "Image Based Recognition of Gaze Direction Using Adaptive Methods" In Gesture and Sign Language in Human-Computer Interaction, 1998年, Springer Berlin Heidelberg.
【文献】WANG, J. et al. "Video-Based Emotion Recognition using Face Frontalization and Deep Spatiotemporal Feature" In 2018 First Asian Conference on Affective Computing and Intelligent Interaction (ACII Asia); 2018年5月1~6日
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、視覚的な顔の特徴を使用し、入力ビデオに基づいて患者の予測情報を生成する方法、サーバ、及びプログラムを提供することを課題とする。
【0009】
例示的な実装形態の態様によれば、ユーザの状態を評価するコンピュータ実装の方法が提供され、受信した入力ビデオ上に顔のランドマーク(landmark)を生成して、ユーザの顔の関心領域に関連する点を定義し、定義された点のそれぞれの位置に基づいて会話の期間を定義し、会話の期間中に、休止頻度、繰り返しパターン、及び語彙の多様性を測定し、測定を集約して、ユーザの状態を予測する予測情報を生成すること、を含む。
【0010】
別の態様によれば、顔のランドマークを生成することは、ユーザの口を含む関心領域について、ユーザの唇の輪郭を描く定義された点を定義し、定義された点の時間的類似性尺度を経時的に測定し、体の動きと頭の動きとを時間的類似性尺度から除外して、口の時間的非類似性尺度を生成すること、を含む。
【0011】
さらに別の態様によれば、会話の期間を定義することは、口の小刻みな動き(ジッタ:jitter)及び面外回転に関連する口の動きを除去し、唇の上唇と下唇との間の垂直距離を測定し、閉鎖(closing)演算を実行して、会話の期間を示す会話スコアを生成すること、を含む。
【0012】
さらに別の態様によれば、休止頻度を測定することは、会話スコアに閾値を適用し、休止頻度として、会話期間中の会話の非活動期間を登録すること、を含む。
【0013】
追加の態様によれば、繰り返しパターンを測定することは、それぞれの第1及び第2の時間間隔の長さを有する会話の期間中の第1及び第2の口の動きのパターンを定義し、一定期間にわたる繰り返し回数を取得するために非類似性比較を実行すること、を含む。
【0014】
さらなる態様によれば、語彙多様性を測定することは、パターンのうち繰り返しパターンを選択することにより、一定数のクラスタを用いたクラスタリング(clustering)を使用して入力ビデオ全体で一定数の語彙パターンを収集及び集約し、一定数の語彙パターンにわたる口の動きを再構築して、口の動きの多様性のスコアを示す再構築コストを生成すること、を含む。
【0015】
さらなる態様によれば、語彙の多様性は、語彙の言語を識別することなく測定される。
【0016】
別の態様によれば、予測情報を生成することは、決定木又はサポートベクターマシン(support vector machine)を適用して、特定の状態を有するユーザと特定の状態を有しないユーザとの間の分離機能を学習することをさらに含む。
【0017】
本発明の例示的態様は、さらに、ユーザの状態を判定するサーバであって、入力ビデオを受信し、前記受信した入力ビデオに対して顔のランドマーク生成動作を実行して、関心領域に関連付けられた点を定義し、前記関心領域に関連付けられた点のそれぞれの位置に基づいて会話の期間を定義し、前記会話の期間中に、休止頻度、繰り返しパターン、及び語彙の多様性を測定し、前記測定を集約して、ユーザの状態を予測する予測情報を生成することを含む動作を実行するように構成されているサーバを含む。
【0018】
顔のランドマークを生成することは、ユーザの口を含む前記関心領域について、ユーザの唇の輪郭を描く定義された点を定義し、定義された点の時間的類似性尺度を経時的に測定し、体の動きと頭の動きとを時間的類似性尺度から除去し、口の時間的非類似性尺度を生成すること、を含んでもよい。
【0019】
会話の期間を定義することは、口のジッタ及び面外回転に関連する口の動きを除去し、唇の上唇と下唇との間の垂直距離を測定し、閉鎖演算を実行し、会話の期間を示す会話スコアを生成すること、を含んでもよい。
【0020】
休止頻度を測定することは、会話スコアに閾値を適用し、会話の期間中の会話非活動期間を休止頻度として登録すること、を含んでもよい。
【0021】
繰り返しパターンを測定することは、それぞれの第1及び第2の時間間隔の長さを有する会話の期間中の第1及び第2の口の動きのパターンを定義し、非類似性比較を実行して一定期間にわたる繰り返し回数を取得すること、を含んでもよい。
【0022】
語彙多様性を測定することは、パターンのうち繰り返しパターンを選択することにより、一定数のクラスタを用いたクラスタリングを使用して、入力ビデオ全体で一定数の語彙パターンを収集及び集約し、一定数の語彙パターンにわたって口の動きを再構築して、口の動きの多様性のスコアを示す再構築コストを生成すること、を含んでもよい。
【0023】
語彙の多様性は、前記語彙の言語を識別することなく測定されてもよい。
【0024】
予測情報を生成することは、特定の状態を有するユーザと特定の状態を有しないユーザとの間の分離機能を学習するために決定木又はサポートベクターマシンを適用することをさらに含んでもよい。
【0025】
本発明の例示的態様は、さらに、ユーザの入力ビデオを受信し、前記受信した入力ビデオに対して顔のランドマーク生成動作を実行して、関心領域に関連付けられた点を定義し、関心領域に関連付けられた点のそれぞれの位置に基づいて会話の期間を定義し、会話の期間中に、会話に関連する意味情報を決定又は適用せずに、休止頻度、繰り返しパターン、及び語彙の多様性を測定し、測定を集約し、測定値に関連するユーザの状態を予測する予測情報を生成すること、を含む方法をコンピュータに実行させる、プログラムを含む。
【0026】
顔のランドマークを生成することは、ユーザの口を含む関心領域について、ユーザの前記唇の輪郭を描く定義された点を定義し、定義された点の時間的類似性尺度を経時的に測定し、体の動きと頭の動きとを時間的類似性尺度から除去し、口の時間的非類似性尺度を生成すること、を含んでもよい。
会話の期間を定義することは、口のジッタ及び面外回転に関連する口の動きを除去し、唇の上唇と下唇との間の垂直距離を測定し、閉鎖演算を実行して、会話の期間を示す会話スコアを生成すること、を含んでもよい。
休止頻度を測定することは、閾値を前記会話スコアに適用し、会話の期間中の会話の非活動期間を休止頻度として登録すること、を含んでもよい。
繰り返しパターンを測定することは、それぞれの第1及び第2時間間隔の長さを有する会話の期間中の第1及び第2の口の動きのパターンを定義し、非類似性比較を実行して一定期間にわたり多数の繰り返しを取得すること、を含んでもよい。
語彙多様性を測定することは、パターンのうち繰り返しパターンを選択することにより、一定数のクラスタを用いたクラスタリングを使用して、入力ビデオ全体で一定数の語彙パターンを収集及び集約し、一定数の語彙パターンにわたって口の動きを再構築して、口の動きの多様性のスコアを示す再構築コストを生成すること、を含んでもよい。
【0027】
語彙の多様性は、語彙の言語を識別することなく測定されてもよい。
【0028】
方法は、決定木又はサポートベクターマシンを適用して予測情報を生成し、特定の状態を有するユーザと特定の状態を有しないユーザとの間の分離機能を学習することをさらに含んでもよい。
【0029】
例示的な実装形態は、記憶部及びプロセッサを有する持続性コンピュータ可読媒体も含むことができ、プロセッサは、ユーザの状態を評価するための命令を実行することができる。
【図面の簡単な説明】
【0030】
【
図1】(a)~(d)は、顔のランドマークを伴う入力特徴画像の例示的な実装形態、及び様々な例示的な実装形態による測定値を示す。
【
図2】(a)~(b)は、例示的な実装形態によって決定された、失語症の人と対照群のメンバーとの休止の比較を示す。
【
図3】(a)~(b)は、例示的な実装形態によって決定された、失語症の人と対照群のメンバーとの繰り返し口パターンの比較を示す。
【
図4】
図4は、例示的な実装形態による例示的なシステム図を示す。
【
図5】
図5は、例示的な実装形態による例示的なプロセスを示す。
【
図6】
図6は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を備えた例示的なコンピューティング環境を示す。
【
図7】
図7は、いくつかの例示的な実装形態に適した例示的な環境を示す。
【発明を実施するための形態】
【0031】
以下の詳細な説明は、本出願の図面及び例示的な実装形態のさらなる詳細を提供する。図面間の重複する要素の参照番号及び説明は、明確性のために省略されている。説明全体で使用される用語は例として提供されており、限定を意図したものではない。
【0032】
臨床環境の外部だけでなく、経時的により頻繁に発話能力を追跡する自動化された評価ツールに対する需要が満たされていない。そのようなアプローチは、失語症又は他の認知及び発話障害を持つ人々のための治療のより効果的な調整を可能にする。1つのアプローチによれば、毎日のビデオ通話に評価ツールを統合して、発話障害のより継続的かつ代表的な評価を提供し、経時的に改善又は悪化を検出することができる。
【0033】
例示的な実装形態の態様は、ビデオシーケンスに基づいて発話及び認知障害を検出するための方法及びシステムを対象とする。より具体的には、クロスメディア(メディア交差)アプローチが採用されており、発話の音声内容を使用せずに、視覚的な顔の特徴のみを適用して発話特性を検出する。例えば、顔のランドマークの検出結果を使用して、顔の動きを経時的に測定することができる。したがって、動的時間伸縮法のメカニズムを使用して、時間的な口の形状分析と口のパターンの繰り返しの識別に基づいて発話と休止のインスタンス(事象)が検出される。一つの例示的な実装形態では、休止頻度、口パターンの繰り返し、及び語彙パターンの多様性に関連する上記の特徴が、失語症などの病状に関連する症状を検出するために適用される。
【0034】
発話及び認知に関連する状態をモデル化するためにコンピュータビジョンが使用される。視線や感情などの顔のジェスチャを認識、識別、又は検出するために顔の点を追跡する関連技術のアプローチとは対照的に、例示的な実装形態は発話及び認知のモデル化を対象としている。さらに、視覚信号を使用して患者が話している単語を直接転写する関連技術の音声/視覚発話認識とも区別できるのは、例示的な実装形態では、発話自体の内容を明らかにせずに、単語のペース、動きが繰り返される程度、使用される様々な語彙などの発話の特性を特徴付け、失語症などの状態の存在を推測する点である。
【0035】
本明細書に記載の例示的な実装形態によれば、クロスメディアアプローチは、視覚情報のみを使用して発話関連特性を推測するため、発話の意味内容を検出又は決定しないことにより、患者のプライバシーを保護する。さらに、例示的な実装形態のプライバシー保護アプローチは、自動評価システムを受け入れやすくし、診断及び治療に関してさらなる可能な実装形態を提供し得る。さらに、例示的な実装形態では、大規模な医学研究のために、医療専門家とのビデオ会議又は特定の談話中に、患者の能力の継続的な評価、患者による長期にわたる自己評価、又はその集約を患者の同意を得て提供できる。
【0036】
例示的な実装形態によれば、失語症に関して評価されるべき能力を有する患者について、患者が話している間に顔のランドマークの初期登録が実行される。患者の顔に関連付けられた顔のランドマークの初期登録に基づいて、発話及び休止の検出のための時間的特徴、及び顔パターンの繰り返しの検出、並びに顔のランドマークに直接基づく全体的な顔パターンの多様性の測定が開発される。さらに、時間的特徴は、吃音、繰り返し的な発話、及び限られた語彙の使用を含むがこれらに限定されない、失語症患者の実際の発話に関する症状に関連している。
【0037】
より詳細には、例示的な実装形態は、実際の発話特性に関連する特徴を明らかにするために、患者の口の分析、より具体的には口の形状及び動きに関連している。受信したビデオにおいて点検出で患者の口の輪郭を描き、経時的にそれらの形状を比較することが採用されている。このような点検出により、発言の番と発言の番の中での短い休止が明らかにできる。さらに、時間的に連続した口の形状が口のパターンにグループ化され、異なるパターンが相互に比較されて、患者の会話中に発生する繰り返しパターンが識別される。さらに、パターンを観察されたパターンの少数の語彙と比較することにより、患者の口の動きの多様性が測定される。
【0038】
例示的な実装形態によれば、患者が話すなどの患者の入力ビデオシーケンスが開始データとして使用される。このビデオシーケンスについて、2次元ランドマークが登録される。例示的な実装形態では、畳み込みニューラルネットワークを使用して、70点の特徴的な顔の点のモデルを取得するアプローチを採用している。本明細書に示す例では70点が使用されているが、例示的な実装形態はそれに限定されず、当業者に理解されるように、顔の特徴に関連する任意の数の点を使用することができる。
【0039】
例えば、
図1(a)は、入力ビデオシーケンスのフレームを示し、ユーザである患者の顔101を示し、患者の顔101は顔の点103を有する。当業者によって理解されるように、顔の点は、GPU又はCPUなどのプロセッサ上で実行される周知の市販のソフトウェアを使用して取得される。顔の点の相当な割合は、患者による発話中に、失語症に対する患者の能力の分析に関して有意な形では変化しない。したがって、例示的な実装形態は、患者による発話中に生じる変化に関連する顔の点のサブセットに焦点を合わせる。これらの点は、
図1(a)に、口の唇の内唇及び外唇の特徴に関連する点105として示されている。例えば、70個の顔の点がある場合、唇の輪郭を描く顔の点、およそ20個の顔の点などを分析に使用できる。前述の数及び割合は例示目的で提供されているが、本発明の概念はこれらのパラメータに限定されず、当業者によって理解されるように他のパラメータを使用することもできる。
【0040】
したがって、ビデオの特定の時点tで患者が話しているときに有意に変化する2次元の顔の点の組は、式(1)において以下に示されるように表される。
【0041】
【0042】
さらに、ビデオ素材は、毎秒30フレームなどの標準レートに正規化できることに留意されたい。したがって、任意の時点tは、フレームインデックスによって指定されてもよい。
【0043】
口の形状及び経時的なその動きの分析は、患者に関連付けられた口などの2次元の顔の点の時間的類似性尺度、ならびに口を開けるなどの所定の顔の特徴の直接の測定に基づいている。経時的に口の形がどれだけ変化するかを比較するために、例えば以下の式(2)に示すように、それらの点ごとの2次差に基づいて、2つの口の形状の違いに関して測定が行われる。
【0044】
【0045】
経時的な口の形状の変化は、体の動き、頭の動き、又は顔内部の動きから生じ得る。顔内部の動きに基づく変化を考慮するために、任意の拡大縮小、2次元回転、及び平行移動を実行して、比較した口の形状の1つを別の口の形状にできるだけ近づけてマッピングし、残りの差を使用して形状の実際の違いを表す。さらに、例示的な実装形態は、口の正面顔テンプレートビューへの中間マッピングを必要とせずに、比較される複数の口の形状を直接マッピングする。関心情報は、ビデオの時間的に近くの口の形状の違いであるため、例示的な実装形態では、正面顔生成処理を使用する関連技術のアプローチによって引き起こされる可能性がある追加的なエラーを回避する。例えば、
図1(b)は、様々な時間窓に対する時間的な口の非類似性を示している。したがって、例示的な実装形態では、式(3)に示す口の非類似性の測定値を提供することにより、形状分析を提供する。
【0046】
【0047】
msimは第1オペランドのスケールに依存するため、非対称及びスケール不変関数は、以下のように式(4)において提供される:
【0048】
【0049】
したがって、msimnormは、時間窓Δtにおける患者の口の形状を比較することにより、顔内部の動きの測定に使用される。どのΔt値が最適な測定値を提供するかについて決定するために、異なる時間窓Wの収集(コレクション)が使用される。したがって、口の最終的な時間的自己非類似性尺度は式(5)に示すように提供される。
【0050】
【0051】
前述の演算は、記憶部に格納された命令として実行され、GPU又はCPUなどのプロセッサ上の動作として実行される。前述の例示的な実装形態で上述したようなモデルを使用して患者の顔の2次元ランドマークが登録されると、例えば、失語症に関する会話検出、休止の頻度、及び繰り返しパターン分析など、発話能力に関する患者の状態の分析を実行できる。
【0052】
例示的な実装形態は、患者の発話能力の異なる特性を推測するために、受信した入力ビデオの時間窓内でいつ患者が話しているかの検出を提供する。口が開いて動いているときに会話が発生し、口の動きが発生するため、会話の期間が、例えば式(5)で高い活動(例えば、非類似性)の領域として明らかになり、これは会話中の口の動きを点検出又は検出ミスのジッタと共に捕捉し、患者がうなずいたり自身の頭を揺らしたりしているときなど、口の面外回転による変化もキャプチャする。ジッタを考慮するには、すべての顔のランドマークが充分な信頼性で検出される時間インスタンスが必要である。
【0053】
うなずきや頭の揺れなどの口の面外回転による変化を考慮するために、そのような状況で発生する登録エラーは、口が窓内のある時点で開いているときにのみ発生し得る会話に基づいてフィルタリングされる。例えば、上唇と下唇の点の間の垂直距離は、o(t)を内側の口の垂直開口部として使用するなどして測定でき、顔全体のスケールで正規化され得る。o(t)は会話中に頻繁に変化するため、閉鎖演算を適用して、最小及び最大フィルターを組み合わせてΔt=50まで間隔(gap)を平滑化し、式(6)で垂直距離を次のように取得できることに留意されたい。
【0054】
【0055】
上記の
図1(c)に示されるように、サンプルビデオでは、o(t)及びo
max(t)が時間窓にわたって示されている。会話中に短時間閉じた口の間隔は埋められるが、非会話期間中ははっきりした境界を保持する。したがって、o
max(t)の閾値は、会話が検出されたことを規定するための前提条件として定義できる。さらに、人が単にうなずいているときのように、話したり口を開いたりすることのない首傾げ動作が除去される。最終的な会話スコア(例えば、口の動き×口の開度)は、以下の式(7)に示すように提供される。
【0056】
【0057】
さらに、式(5)に関して上で説明した口の自己非類似性尺度、及び式(6)に関して上で定義した垂直距離測定は、[0、1]に最大値正規化される。さらに、会話閾値τ
talkをハード{0、1}割り当て(hard {0, 1} assignment)に使用でき、非常に短い会話間隔を削除でき、さらに、非常に短い隙間だけで区切られた密接に隣接した会話間隔を結合でき、
図1(d)に示すような会話インスタンス検出を生成する。前述の演算は、記憶部に格納された命令として実行され、GPUやCPUなどのプロセッサでの動作として実行される。
【0058】
患者が話しているかどうかに関して判定ができると、休止頻度が決定され得る。例えば、失語症の患者の場合、会話中の意図しない休止として現れる流暢でない(dysfluent)発話は、決定的な症状である。したがって、例示的な実装形態は、流暢さの直接的な尺度として休止の尺度を開発することに向けられている。例示的な実装形態では、式(7)に関して上記で説明した会話スコアを使用し、より制限的な閾値τpauseを適用し、さらに以前に検出された会話インスタンス中の非活動のすべての領域を登録することにより休止を検出する。前述の演算は、記憶部に格納された命令として実行され、GPUやCPUなどのプロセッサでの動作として実行される。
【0059】
上述したように、
図1(d)は、会話の期間中のそのような休止の例を示している。通常の発話の過程として患者によって意図的に提供される休止が提供されるが、全体的な休止頻度は、患者の発話の流暢さに関して依然として相関する可能性がある。
【0060】
図2(a)及び
図2(b)にそれぞれ示されるように、対照群のメンバーと比較して、失語症の人の休止頻度の違いを示す定性的な例を提供することができる。
【0061】
流暢でない発話に加えて、失語症患者はまた、発話、単語又は文の断片の頻繁な繰り返しの特徴を有する。これらの繰り返しは、次の単語を形成するとき、又は前の単語を修正しようとするときに発生し得る。例示的な実装形態は、発話の繰り返しに関連する口の動きの繰り返しを検出することを対象としている。口の動きの繰り返しは、発話の内容の意味に関する繰り返しを示すことはできないが、視覚的表現に関連する情報は繰り返しの挙動の決定要因となりうる。
【0062】
口の動きの視覚的繰り返しを検出するために、時間t周りの長さlを有する口の動きのパターンが式(8)で定義される:
【0063】
【0064】
したがって、例示的な実装形態は、動的時間収縮法を使用して、任意の長さの2つの観察されたパターンを比較する(例えば、会話セグメントのフレームごとの分析)。第1の口の形状を第2の口の形状に変換するか、第1の口の形状に挿入又は削除を許可することにより、第1パターンが第2パターンに変換される。上記のように、直接変換動作のコストは、2つの変換された口の形状間でmsimnormであり、[0、1]に最大値正規化される。非類似性が大きいほど、コストが高くなる。さらに、挿入及び削除動作には最大コスト1が割り当てられる。同じ口の動きが常に同じ速度で実行されるとは限らないため、挿入と削除を使用した時間収縮が、長さが異なる類似パターン間のマッチングを提供する。その結果、全体のパターン一致コストは、変換動作の最適なシーケンスのコストの合計になる。
【0065】
繰り返しの可能性を見つけるために、局所的に一意(unique)な口の形状の周りの基準パターンが抽出される。例えば、dw(t)の最大値を抽出することができる。次に、閾値τmatch未満の一致コストを持つ、例えばこれに限定されないがプラスマイナス5秒などの直接近傍にある一致パターンの検索が実行される。
【0066】
図3(a)及び
図3(b)は、それぞれ失語症でない人と比較して、単一の単語を頻繁に繰り返す失語症の患者のパターン一致の例を示している。どちらの場合も繰り返しパターンが存在するが、失語症でない人の多くの高度にインターリーブされた繰り返しと比較すると、失語症の患者は直接的な繰り返し(direct repetitions)に比べて、これを僅かしか示さない。したがって、1又は複数の他のパターンで区切られていない直接的な繰り返しは、単語の直接的な繰り返しを示すことができるため、直接的な繰り返しの発生がカウントされて合計会話時間に対して正規化され、1秒あたりの視覚的繰り返しの尺度を失語症の指標として取得する。前述の演算は、記憶部に格納された命令として実行され、GPUやCPUなどのプロセッサでの動作として実行される。
【0067】
時間窓内で発生又は繰り返すパターンを検出することに加えて、ビデオ全体にわたってパターンを収集し、口の動き又は表現の多様性、したがって実際の発話の多様性に直接相関する、発話の多様性を評価することができる。例えば、少数の単語又は発言のみを表現できる人は、正常な語彙を持つ健常者と比較して口の動きの多様性が少ない。
【0068】
例示的な実装形態によれば、より長い時間窓を考慮し、電話会話又はビデオ会議などの発話事象全体にわたってクラスタがあるかどうかを評価するこのアプローチは、発話の実際の単語の内容を知らなくても患者が使用する語彙の診断を実行できる。これは、本明細書で説明するように、語彙の多様性の尺度を取得することによって行われる。
【0069】
より具体的には、語彙多様性の尺度は、ビデオ全体で一定数のパターンを収集し、一定数のクラスタを用いてクラスタリングを使用してパターンを集約することで、各人の口パターンの視覚的語彙を構築することにより取得される。少なくとも1回繰り返されるパターンが選択される。しかしながら、当業者には理解されるように、2回繰り返す、又は他の値のパターン繰り返しなど、異なる閾値を選択してもよい。
【0070】
すべてのクラスタセンターの代表値が語彙を形成する。例示的な実装形態によれば、事前定義された語彙サイズkのk-medioidsクラスタリングが使用される。しかし、例示的な実装形態の発明の範囲から逸脱することなく、他のクラスタリングの発見的手法で代用することもできる。語彙サイズkが小さい場合、代表値が、患者の口の動きの完全な多様性をどれだけ網羅しているかを判定するための測定が実行される。ビデオでの会話は、固定サイズの口の動きのブロックに分割される。各ブロックの長さは、語彙のパターンと同じである。繰り返しパターンの決定に関して上で説明したように、各ブロックが、パターン一致コストが最も低い語彙要素に割り当てられる。したがって、最も適合する語彙要素を連結するだけで、会話中の完全な口の動きが再構築される。この再構築に基づいて、各ブロック間の再構築コストの一致コストと、その割り当てられたパターンの測定値が取得される。次に、ブロックあたりの平均として総再構築コストの計算が実行される。前述の演算は、記憶部に格納された命令として実行され、GPUやCPUなどのプロセッサでの動作として実行される。
【0071】
口の動きの多様性が限られている場合、少ない語彙は動き全体を充分に説明し、良好な再構築をもたらす。再構築コストは、複数の値の各々についてkに対して計算され、再構築コストの平均が、患者の失語症の指標である口の動きの多様性の最終スコアである。
【0072】
会話自体の単語の実際の意味を検出せず、したがって会話の内容に関して患者のプライバシーを保護することに加えて、例示的な実装形態は追加的な利点及び利益も有し得る。そのような利点の一例として、ツールを適用するために、ツール又は臨床医が、患者の文法を理解する必要はない。例えば、臨床医は、1又は複数の患者の失語症を治療又は研究するために患者の言語を知る必要はない。同様に、患者の情報を集約するより広範な研究の場合、ツールが言語固有である必要がないため、より多くの集団がそのような研究に参加できる可能性がある。そのような追加機能の1つは、例示的な実装形態が言語に依存しないことである。したがって、患者によって話されている言語に関係なく、例示的な実装形態を採用することができる。
【0073】
上記で説明したように、休止、繰り返し、及び語彙サイズに関連する情報が患者について取得される。休止、繰り返し、及び語彙サイズに関連するこの情報は、失語症の有無及び失語症の程度や種類に関する集約的予測を提供するために適用される。例示的な実装形態は失語症に関しているが、他の認知障害又は発話障害も予測され得る。特定の障害を持つ患者のビデオのトレーニングコレクションが、障害を示さない対照患者の例とともに提供され、これにより、機械学習やニューラルネットワークなどの学習技術を使用して、障害の存在を予測する特徴の特徴的な組み合わせ学習をすることができる。
【0074】
前述の例示的な実装形態では、機械学習を使用して、失語症の1又は複数の患者の顔活動の例を示す、公開又は非公開の格納されたビデオなどのビデオ例に基づく予測を生成することができる。この過去のデータを基礎として使用して、機械学習を使用して失語症の予測を生成できる。当業者に知られているような一般的な機械学習ツールを使用することができる。さらに、また本明細書で説明されるように、プロセッサ(例えば、CPU又はGPU)を有する持続性コンピュータ可読媒体上の命令として、決定木及びサポートベクターマシンも実行され得る。さらに、ネットワーク等を介して患者のセンサーと相互接続されたプロセッサを使用することにより、言語、国、場所などに依存せず例示的な実装形態を実行することができる。
【0075】
例えば、これに限定されないが、数分間のビデオにわたって、特徴が、それらの分布の統計情報及び一般的な分類子(決定木又はサポートベクターマシンを含むが、これらに限定されない)により抽出されることができ、これらは、2つの分類、つまり特定の障害を持つ患者と対照患者との間の分離機能を学習するために適用できる。
【0076】
図4は、例示的な実装形態に関連する例示的なシステム
図400を示している。例示的なシステム400によれば、401で入力ビデオが提供される。405で局所的な口の類似性、及び407で全体的な口の類似性を生成するために、403で姿勢推定が実行される。405で生成された局所的な口の類似性が409で入力され、休止頻度の検出が実行される。繰り返しパターンの存在を判定するために、409での休止頻度検出の結果、ならびに407で提供される全体的な口の類似性が、411で入力として提供される。さらに、409での休止頻度検出の結果及び407で生成された全体的な口の類似性が、413で、上記で説明したように、口の動きの多様性を評価する語彙パターンの視覚的クラスタリング決定を提供する入力として提供される。415で、休止決定、繰り返し検出及び視覚的語彙パターン認識の出力が、モデル化及び予測ツールに入力され、上記で説明したように、失語症の有無に関して集約及び予測を実行する。
【0077】
図5は、例示的な実装形態による例示的なプロセス500を示す。本明細書で説明するように、例示的なプロセス500は、1又は複数の装置上で実行することができる。
【0078】
501で、入力ビデオが受信される。例えば、これに限定されないが、入力ビデオは患者により、ビデオ会議中など臨床設定の外部で生成されてもよい。患者は、スマートフォン、ラップトップ、タブレット、又は一体型又は分離型の他の装置などのモバイル通信装置を使用していてもよい。例示的な実装形態はビデオカメラに限定されず、患者の顔領域を検知する機能を実行できる他の検知装置で代替してもよい。例えば、これに限定されないが、3次元カメラを使用して顔の特徴を検知し、例示的な実装形態に従って処理するための信号を生成してもよい。
【0079】
音声又は他の発話の意味的出力は分析されないので、本例示的な実装形態の目的のために入力装置がマイクを備える必要はない。任意選択的に、患者は、ビデオ画面及びスピーカーやヘッドフォンなどの音声出力の少なくとも一方などから、通信相手の別のユーザからの入力を受信してもよい。例示的な実装形態の目的のために、患者の活動は入力装置によってキャプチャされ、入力は、入力ビデオを受信するサーバなどの1又は複数のプロセッサに送信される。
【0080】
503で、入力ビデオを使用して、患者の顔のランドスケープ(landscape)を生成する。上記で説明したように、特徴的な顔の点が決定され、口に関連付けられた特徴的な顔の点のサブセットが、着目する顔の点として識別される。
【0081】
505で、入力ビデオ内の顔の動きが会話しているかどうかについて判定が行われる。上記で説明したように、顔の点のサブセットの非会話中の動き(例えば、ジッタ、うなずき、揺れ)は除外され、会話の期間を示す会話スコアを取得するために閉鎖演算が実行される。
【0082】
507で、会話の期間について、休止頻度が測定される。例えば、これに限定されないが、505で取得された会話インスタンス内の非活動領域は休止として測定され得、測定された休止の頻度が決定される。
【0083】
509で、繰り返しのパターンが決定される。より具体的には、口の動きのパターンに基づいて、複数の観察されたパターンの類似性が測定される。直接的な繰り返しの発生は、合計会話時間によって測定及び正規化され、例えば、1秒あたりの視覚的繰り返しの尺度が取得される。
【0084】
511において、語彙の内容を識別することなく、語彙の多様性を判定するために、口の動きの全体的な多様性が測定される。口の動きの多様性の最終スコアを計算するために、口のパターン及びクラスタリングが実装されている。
【0085】
513で、休止頻度については507から、繰り返しパターンについては509から、及び語彙多様性については511から取得された測定値及びスコアリングが組み合わされる(例えば、集約される)。
【0086】
515で、集約された測定値及びスコアリングが適用されて、患者が病状(例えば、失語症)を有するかどうかを示すモデルを生成する。例えば、上述したように、ビデオの訓練コレクションを使用して、病状の特徴の特徴的な組み合わせを学習することができる。
【0087】
図6は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置605を備えた例示的なコンピューティング環境600を示している。コンピューティング環境600内のコンピュータ装置605は、1又は複数の処理ユニット、コア、又はプロセッサ610、メモリ615(例えば、RAM、ROM、など)、内部記憶装置620(例えば、磁気、光学、固体素子、及び有機のうちの少なくとも一つの記憶装置)、及びI/Oインターフェース625のうちの少なくとも一つを備えることができ、これらのいずれも、情報を通信するための通信機構又はバス630上で結合されるか、又はコンピュータ装置605に埋め込まれることができる。
【0088】
コンピュータ装置605は、入力/インターフェース635及び出力装置/インターフェース640に通信可能に結合されることができる。入力/インターフェース635及び出力装置/インターフェース640の一方又は両方は、有線又は無線インターフェースであってよく、取り外し可能であってもよい。入力/インターフェース635は、入力を提供するために使用できる物理的又は仮想の装置、部品、センサー、又はインターフェースを備えることができる(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントロール、マイク、カメラ、点字、モーションセンサー、光学式リーダー、など)。
【0089】
出力装置/インターフェース640は、ディスプレイ、テレビ、モニタ、プリンター、スピーカー、点字、などを含んでもよい。いくつかの例示的な実装形態では、入力/インターフェース635(例えば、ユーザインターフェース)及び出力装置/インターフェース640が、コンピュータ装置605に埋め込まれるか、又は物理的に結合されることができる。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置605の入力/インターフェース635及び出力装置/インターフェース640として機能するか、その機能を提供してもよい。
【0090】
コンピュータ装置605の例は、これらに限定されないが、高度移動性装置(例えば、スマートフォン、車両及び他の機械の装置、人間及び動物によって運ばれる装置、など)、携帯性装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオ、など)、及び携帯向けに設計されていない装置(例えば、デスクトップコンピュータ、サーバ装置、その他のコンピュータ、情報端末、1又は複数のプロセッサがその中に埋め込まれるか又は結合されたテレビ、ラジオ、など)を含んでいてよい。
【0091】
コンピュータ装置605は、同じ又は異なる構成の1又は複数のコンピュータ装置を備える任意の数のネットワーク構成要素、装置、及びシステムと通信するために、外部記憶装置645及びネットワーク650に(例えば、I/Oインターフェース625を介して)通信可能に結合されることができる。コンピュータ装置605又は任意の接続されたコンピュータ装置は、サーバ、クライアント、薄型サーバ、汎用機械、専用機械、又は別のラベルとして機能するか、それらのサービスを提供するか、又は参照されることができる。例えば、これに限定されないが、ネットワーク650はブロックチェーンネットワーク及びクラウドの少なくとも一方を備えてもよい。
【0092】
I/Oインターフェース625は、これに限定されないが、コンピューティング環境600内の少なくともすべての接続された構成要素、装置、及びネットワークと情報通信するための任意の通信又は、I/Oプロトコル若しくは標準(例えば、イーサネット(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX、モデム、セルラーネットワークプロトコル、など)を使用する有線及び無線の少なくとも一方のインターフェースを備えることができる。ネットワーク650は、任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、携帯電話ネットワーク、衛星ネットワーク、など)であってよい。
【0093】
コンピュータ装置605は、一時的媒体及び持続性媒体を備えるコンピュータ使用可能又はコンピュータ可読媒体を使用するか、使用して通信することができる。一時的媒体には、伝送媒体(例えば、金属ケーブル、光ファイバー)、信号、搬送波、などが含まれる。持続性媒体には、磁気媒体(例えば、ディスクやテープ)、光学媒体(例えば、CD-ROM、デジタルビデオディスク、ブルーレイディスク)、固体素子媒体(例えば、RAM、ROM、フラッシュメモリ、固体素子記憶装置)、及びその他の不揮発性記憶装置又はメモリが含まれる。
【0094】
いくつかの例示的なコンピューティング環境では、コンピュータ装置605を使用して、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実装することができる。コンピュータ実行可能命令は、一時的媒体から取得して持続性媒体に格納し、そこから取得できる。実行可能命令は、1又は複数の任意のプログラミング、スクリプト、及び機械言語(例えば、C、C++、C#、Java(登録商標)、Visual Basic、Python(登録商標)、Perl、JavaScript(登録商標)など)から生成できる。
【0095】
プロセッサ610は、ネイティブ又は仮想環境で、任意のオペレーティングシステム(OS)(図示せず)の下で実行されることができる。論理ユニット655、アプリケーションプログラミングインターフェース(API)ユニット660、入力ユニット665、出力ユニット670、顔ランドマークユニット675、時間的特徴分析ユニット680、モデル化/予測ユニット685、及び異なるユニットが互いに、OS、および他のアプリケーション(図示せず)と通信するためのユニット間通信メカニズム695を含む1又は複数のアプリケーションを展開することができる。
【0096】
例えば、顔ランドマークユニット675、時間的特徴分析ユニット680、及びモデル化/予測ユニット685は、上述した構造に関して上述した1又は複数のプロセスを実装し得る。説明されたユニット及び要素は、設計、機能、構成、又は実装形態を異なるものとすることができ、提供された説明に限定されない。
【0097】
いくつかの例示的な実装形態では、情報又は実行命令がAPIユニット660によって受信されると、それは1又は複数の他のユニット(例えば、論理ユニット655、入力ユニット665、顔ランドマークユニット675、時間的特徴分析ユニット680、及びモデル化/予測ユニット685)に通信されることができる。
【0098】
例えば、顔ランドマークユニット675は、上記でより詳細に説明したように、入力ビデオを受信及び処理し、患者の顔の画像上に2次元ランドマークを登録して、特徴的な顔の点のモデルを生成することができる。顔ランドマークユニット675の出力は、時間的特徴分析ユニット680に提供され、それは、上でより詳細に説明したように、会話、休止頻度、繰り返しパターン、及び口パターンの視覚的語彙を分析して検出する。時間的特徴分析ユニット680の出力は、モデルを生成し、失語症などの病状の有無に関する患者の状態に関する推論を提供するモデル化/予測ユニット685に提供される。
【0099】
場合によっては、論理ユニット655は、上記のいくつかの例示的な実装形態において、ユニット間の情報フローを制御し、APIユニット660、入力ユニット665、顔ランドマークユニット675、時間的特徴分析ユニット680、及びモデル化/予測ユニット685によって提供されるサービスを管理するように構成され得る。例えば、1又は複数のプロセス又は実装形態のフローは、論理ユニット655のみによって、又はAPIユニット660と連動して制御されてもよい。
【0100】
図7は、いくつかの例示的な実装形態に適した例示的な環境を示している。環境700は、装置705~745を備え、各々が、例えばネットワーク760を介して(例えば、有線及び無線接続の少なくとも一方により)少なくとも1つの他の装置に通信可能に接続される。一部の装置は、1又は複数の記憶装置730及び745に通信可能に接続され得る。
【0101】
1又は複数の装置705~745の例は、それぞれ
図6に記載されたコンピュータ装置605であってよい。装置705~745は、上記に説明したモニタ及び関連するウェブカメラを有するコンピュータ705(例えば、ラップトップコンピュータ装置)、携帯装置710(例えば、スマートフォン又はタブレット)、テレビ715、車両720に関連する装置、サーバコンピュータ725、コンピュータ装置735~740、記憶装置730及び745を含み得るが、これらに限定されない。
【0102】
いくつかの実装形態では、装置705~720は、企業のユーザに関連付けられたユーザ装置と見なされてもよい。装置725~745は、サービスプロバイダーに関連する装置であってもよい(例えば、外部ホストを使用して様々な図面に関して上述したサービスを提供したり、Webページ、テキスト、テキスト部分、画像、画像部分、音声、音声セグメント、ビデオ、ビデオセグメント、それらに関する情報などのデータを格納したりする)。
【0103】
前述の例示的な実装形態は失語症に関しているが、上記で説明したように、顔の点の動きによって示される他の障害もモデル化し予測され得る。例えば、これに限定されないが、医療施設又は状態のリスクの高い患者の家に、コンピュータビジョンを使用して顔の点を取得し、顔の点に関連するサブセットの分析を実行するカメラを設置し、状態の存在に対処ことができる。脳卒中などの一部の状況では、潜在的な生命を脅かす事象の事前表示として、特定の顔の活動が他の検出可能な活動の前に発生する場合がある。そのような顔の点の動きを早い段階で検出する1又は複数のカメラを使用し、脳卒中の潜在的な患者の早期検出を支援し、早期治療を得ることができる。このようなツールは、ネットワーク、ローカライズされたセキュリティシステム、ユーザに関連付けられたカメラを有する携帯装置、又はテレビやディスプレイ画面などユーザが注意を払うことができる部屋の物体にさえも統合して設置できる。
【0104】
別の例示的な実装形態によれば、発話療法のためのオンラインアプリケーションが、本明細書で説明される実装形態を使用してもよい。例えば、これに限定されないが、ユーザは、タブレット、ラップトップ、テレビ、スマートフォン、又はビデオカメラが存在する他の装置などの装置にダウンロードされた発話療法アプリケーションを使用でき、ユーザが自身の状態に関するフィードバックを取得することができる。さらに、臨床医又はオンラインアプリケーション自体からの命令に基づいて治療活動に従事しているユーザは、ツールを使用して進行状況を追跡し、追加の治療に関するさらなるフィードバック又は関連する医療情報を受け取ることができる。
【0105】
さらに、例示的な実装形態は、電話会議又はテレビ会議システムなど、患者と1又は複数の他のユーザとの間の通信アプリケーションに統合され得る。このようなシステムでは、オンラインアプリケーションは、患者が他者と通信しながら失語症を自己評価するための第3者ツール又は統合ツール若しくはアドインとして例示的な実装形態を使用できる。これは、患者が症状として失語症の状態にある場合、通信スケジュールを調整したり、進捗状況を追跡したりできるなどの点で、患者にとっても有益であり得る。一方、患者と他のユーザとの間の潜在的な欲求不満、恥ずかしさ又は厄介な状況を避けるために、患者情報の同意を得て、患者が失語症であるという情報を患者と通信している患者以外のユーザに提供してもよい。
【0106】
また、前述の行為の例示的な実装形態は、発話の内容の検出も実行する関連技術の音声システムと組み合わせて使用できることに留意されたい。しかしながら、関連技術の音声システムは例示的な実装形態に必要ではなく、上記で説明したように、例示的な実装形態は、他の関係者にプライバシー保護情報を提供する任意の音声システム又は他のシステムなしで使用できる。
【0107】
より広範な研究レベルでは、失語症に関連する分析を使用して、多数の患者にわたるパターンを認識することができる。特定のトリガーによるものや一定の時間後などの、症状が現れる時期と現れ方のパターン認識が、失語症の程度又は種類を判定及び評価するために役立つ場合がある。そのような情報は、患者の同意を得て、大規模な研究で使用され得る。
【0108】
前述の例示的な実装形態は、関連技術に対して様々な利点及び利益を有し得る。例えば、これに限定されないが、例示的な実装形態によれば、患者のプライバシーを保護しながら、患者が失語症であるかどうか、ならびに失語症の重症度に関する判定及び予測を可能にする。さらに、上記でも説明したように、例示的な実装形態は言語に依存せず、変更を必要とせずに複数の異なる言語で採用できる。さらに、例示的な実装形態では、発話自体の内容を明らかにすることなく発話特性の認識が可能になり、実際の発話内容を検出又は判定することなく、発話パターンの特性を求めて顔の動きの時間的特徴に注目することが可能になる。
【0109】
いくつかの例示的な実装形態を示して説明したが、これらの例示的な実装形態は、本明細書で説明する主題をこの分野に精通している人々に伝達するために提供される。本明細書で説明される主題は、説明される例示的な実装形態に限定されることなく、様々な形態で実装され得ることを理解されたい。本明細書に記載の主題は、具体的に定義又は記載された事項なしに、又は記載されていない他の又は異なる要素若しくは事項とともに実施することができる。添付の特許請求の範囲及びそれらに相当する物で定義される本明細書に記載の主題から逸脱することなく、これらの例示的な実装形態において変更を行うことができることは、この分野に精通する者によって理解される。