(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-09
(45)【発行日】2024-05-17
(54)【発明の名称】疾患予測装置、予測モデル生成装置および疾患予測用プログラム
(51)【国際特許分類】
G16H 50/20 20180101AFI20240510BHJP
A61B 10/00 20060101ALI20240510BHJP
G06F 17/18 20060101ALI20240510BHJP
G10L 15/10 20060101ALI20240510BHJP
G10L 25/66 20130101ALI20240510BHJP
【FI】
G16H50/20
A61B10/00 H
G06F17/18 Z
G10L15/10 500Z
G10L25/66
(21)【出願番号】P 2021561395
(86)(22)【出願日】2020-11-24
(86)【国際出願番号】 JP2020043563
(87)【国際公開番号】W WO2021106825
(87)【国際公開日】2021-06-03
【審査請求日】2023-10-24
(31)【優先権主張番号】P 2019212031
(32)【優先日】2019-11-25
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人日本医療研究開発機構、「未来医療を実現する医療機器・システム研究開発事業ICTを活用した診療支援技術研究開発プロジェクト」「表情・音声・日常生活活動の定量化から精神症状の客観的評価をリアルタイムで届けるデバイスの開発」に係る委託事業、産業技術力強化法第17条の適用を受ける特許出願
【早期審査対象出願】
(73)【特許権者】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100105784
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】岸本 泰士郎
(72)【発明者】
【氏名】梁 國經
(72)【発明者】
【氏名】吉村 道孝
(72)【発明者】
【氏名】吉村 桃子
(72)【発明者】
【氏名】藤田 卓仙
(72)【発明者】
【氏名】三村 將
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】国際公開第2002/087434(WO,A1)
【文献】特開2004-240394(JP,A)
【文献】特開2002-306492(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
A61B 10/00
G06F 17/18
G10L 15/10
G10L 25/66
(57)【特許請求の範囲】
【請求項1】
時系列に値が変化する一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出部と、
上記特徴量算出部により所定時間単位ごとに時系列に算出された上記複数種類の音響的特徴量について、上記複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出する処理を、上記移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出部と、
上記行列算出部により算出された上記空間遅延行列に対して所定の演算を行うことにより、上記空間遅延行列に特有の行列特有データを算出する行列演算部と、
上記行列演算部により算出された上記行列特有データを学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する疾患予測部とを備え、
上記疾患予測モデルは、上記行列特有データが入力された際に上記被験者の疾患レベルを出力するように、学習用データを用いた機械学習処理により生成されている
ことを特徴とする疾患予測装置。
【請求項2】
上記行列演算部は、上記行列算出部により算出された上記空間遅延行列に対して分解演算を行うことにより、上記空間遅延行列に特有の行列分解値を算出する行列分解部を含み、
上記疾患予測部は、上記行列分解部により算出された上記行列分解値を上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
ことを特徴とする請求項1に記載の疾患予測装置。
【請求項3】
上記行列演算部は、上記行列算出部により算出された1以上の上記空間遅延行列を用いて、上記関係値のN次元テンソル(N≧1)を生成するテンソル生成部を含み、
上記疾患予測部は、上記テンソル生成部により生成された上記N次元テンソルを上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
ことを特徴とする請求項1に記載の疾患予測装置。
【請求項4】
上記行列算出部は、上記関係値を算出する処理を上記
音響的特徴量の組み合わせを変えてそれぞれ行うことにより、同じ行数および同じ列数から成る複数の空間遅延行列を算出し、
上記テンソル生成部は、上記行列算出部により算出された上記複数の空間遅延行列を用いて、上記関係値の3次元テンソルを生成し、
上記疾患予測部は、上記テンソル生成部により生成された上記3次元テンソルを上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
ことを特徴とする請求項3に記載の疾患予測装置。
【請求項5】
上記行列算出部は、上記関係値を算出する処理を上記
音響的特徴量の組み合わせを変えてそれぞれ行うことにより、同じ行数および同じ列数から成る複数のオリジナルの空間遅延行列を算出するとともに、当該複数のオリジナルの空間遅延行列どうしの差分を演算することによって1以上の差分系列の空間遅延行列を算出し、
上記テンソル生成部は、上記行列算出部により算出された上記複数のオリジナルの空間遅延行列および上記1以上の差分系列の空間遅延行列を用いて上記3次元テンソルを生成する
ことを特徴とする請求項4に記載の疾患予測装置。
【請求項6】
上記行列算出部は、上記複数のオリジナルの空間遅延行列どうしの差分を演算することによって複数の1次差分系列の空間遅延行列を算出するとともに、上記複数の1次差分系列の空間遅延行列どうしの差分を演算することによって1以上の2次差分系列の空間遅延行列を算出することを特徴とする請求項5に記載の疾患予測装置。
【請求項7】
上記特徴量算出部は、上記被験者と他者との一連の会話音声のデータを分析することにより、上記被験者による発話音声に関する複数種類の音響的特徴量を算出することを特徴とする請求項1~6の何れか1項に記載の疾患予測装置。
【請求項8】
上記特徴量算出部は、上記被験者の声の強さ、基本周波数、ケプストラムピークプロミネンス(CPP)、フォルマント周波数、メル周波数ケプストラム係数(MFCC)のうち少なくとも2つ以上を算出することを特徴とする請求項7に記載の疾患予測装置。
【請求項9】
上記特徴量算出部は、3種類以上の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出することを特徴とする請求項1に記載の疾患予測装置。
【請求項10】
上記特徴量算出部は、上記被験者と他者との一連の会話音声に係る時系列データを分析することにより、上記被験者による発話音声に関する複数種類の音響的特徴量として、上記被験者の声の強さ、基本周波数、ケプストラムピークプロミネンス(CPP)、フォルマント周波数、メル周波数ケプストラム係数(MFCC)のうち少なくとも3種類以上を算出することを特徴とする請求項9に記載の疾患予測装置。
【請求項11】
上記行列算出部は、上記3種類以上の音響的特徴量の組み合わせから2つ以上の空間遅延行列を算出し、
上記行列演算部は、上記2つ以上の空間遅延行列からそれぞれ特有の上記行列特有データを算出する
ことを特徴とする請求項9または10に記載の疾患予測装置。
【請求項12】
疾患レベルが既知である複数人の対象者に関して取得された、時系列に値が変化する一連の時系列データを学習用データとして入力する学習用データ入力部と、
上記学習用データ入力部により入力された上記一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出部と、
上記特徴量算出部により所定時間単位ごとに時系列に算出された上記複数種類の音響的特徴量について、上記複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出する処理を、上記移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出部と、
上記行列算出部により算出された上記空間遅延行列に対して所定の演算を行うことにより、上記空間遅延行列に特有の行列特有データを算出する行列演算部と、
上記行列演算部により算出された上記行列特有データを用いて、被験者に関する行列特有データが入力された際に上記被験者の疾患レベルを出力するための疾患予測モデルを生成する予測モデル生成部とを備え、
上記学習用データ入力部により入力された複数人の時系列データのそれぞれについて、上記特徴量算出部、上記行列算出部および上記行列演算部の処理を行い、複数人の特有データを上記予測モデル生成部に入力して機械学習処理を行うことにより、上記疾患予測モデルを生成することを特徴とする予測モデル生成装置。
【請求項13】
上記行列演算部は、上記行列算出部により算出された上記空間遅延行列に対して分解演算を行うことにより、上記空間遅延行列に特有の行列分解値を算出する行列分解部を含み、
上記予測モデル生成部は、上記行列分解部により算出された上記行列分解値を用いて、被験者に関する行列分解値が入力された際に上記被験者の疾患レベルを出力するための疾患予測モデルを生成する
ことを特徴とする請求項12に記載の予測モデル生成装置。
【請求項14】
上記行列演算部は、上記行列算出部により算出された1以上の上記空間遅延行列を用いて、上記関係値のN次元テンソル(N≧1)を生成するテンソル生成部を含み、
上記予測モデル生成部は、上記テンソル生成部により生成された上記N次元テンソルを用いて、被験者に関する3次元テンソルが入力された際に上記被験者の疾患レベルを出力するための疾患予測モデルを生成する
ことを特徴とする請求項12に記載の予測モデル生成装置。
【請求項15】
時系列に値が変化する一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出手段、
上記特徴量算出手段により所定時間単位ごとに時系列に算出された上記複数種類の音響的特徴量について、上記複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出する処理を、上記移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出手段、
上記行列算出手段により算出された上記空間遅延行列に対して所定の演算を行うことにより、上記空間遅延行列に特有の行列特有データを算出する行列演算手段、および
上記行列演算手段により算出された上記行列特有データを、上記行列特有データが入力された際に被験者の疾患レベルを出力するように学習用データを用いた機械学習処理により生成されている学習済みの疾患予測モデルに入力し、上記被験者の疾患レベルを予測する疾患予測手段
としてコンピュータを機能させるための疾患予測用プログラム。
【請求項16】
上記行列演算手段は、上記行列算出手段により算出された上記空間遅延行列に対して分解演算を行うことにより、上記空間遅延行列に特有の行列分解値を算出する行列分解手段を含み、
上記疾患予測手段は、上記行列分解手段により算出された上記行列分解値を上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
ことを特徴とする請求項15に記載の疾患予測用プログラム。
【請求項17】
上記行列演算手段は、上記行列算出手段により算出された1以上の上記空間遅延行列を用いて、上記関係値のN次元テンソル(N≧1)を生成するテンソル生成手段を含み、
上記疾患予測手段は、上記テンソル生成手段により生成された上記N次元テンソルを上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
ことを特徴とする請求項15に記載の疾患予測用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、疾患予測装置、予測モデル生成装置および疾患予測用プログラムに関し、特に、被験者が特定の疾患に罹っている可能性や重症度を予測する技術および、この予測に用いる予測モデルを生成する技術に関するものである。
【背景技術】
【0002】
うつ病は、抑うつ気分、意欲・興味・精神活動・食欲の低下、不安・緊張・焦燥感・疲労感の持続、不眠などを特徴とした精神障害であり、精神的ストレスや身体的ストレスが重なることなどによって引き起こされる。早めに治療を始めるほど回復が早いことが知られているので、早期診断および早期治療を心がけることが大切である。うつ病の診断基準については種々のものが提供されているが、機械学習を用いた診断法も提案されている(例えば、特許文献1参照)。
【0003】
特許文献1に記載のシステムでは、患者から収集されたスピーチパターンから少なくとも1つのスピーチ特徴を算出し、算出したスピーチ特徴の少なくとも一部に基づいて、患者のうつ状態についてのスコアまたは評価を提供する統計モデルを学習し、この統計モデルを用いて患者の精神状態を判別する。この特許文献1には、機械学習に用いるスピーチ特徴の例として、韻律特徴、短いスピーチサンプル(例えば、20ミリ秒長)から算出される低レベル特徴、および長いスピーチサンプル(例えば、発話レベル)から算出さるた高レベル一時的特徴が開示されている。
【0004】
韻律特徴の具体例として、音声の休止期間、様々な抽出領域に渡るピッチおよびエネルギーの測定値、メル周波数ケプストラム係数(MFCCs:Mel Frequency Cepstral Coefficients)、新規ケプストラム特徴(novel cepstral features)、一時的変動パラメータ(例えば、発声速度、期間内におけるプロミネンス、ピークの分布、ポーズの長さおよび周期、音節期間等)、スピーチ周期性、ピッチ変動、および音声/無音声比が開示されている。
【0005】
また、低レベル特徴の具体例として、減衰振動ケプストラム係数(DOCC: Damped Oscillator Cepstral Coefficients)、正規化変調ケプストラム係数(NMCCs: Normalized Modulation Cepstral Coefficients)、媒体期間スピーチ振幅(MMeDuSA: Medium Duration Speech Amplitudes)特徴、ガンマトーンケプストラム係数(GCCs: Gammatone Cepstral Coefficients)、ディープTV、音声表音的特徴(Acoustic Phonetic:例えば、フォルマント情報、平均ヒルベルト包絡線、サブ帯域における周期的および非周期的エネルギー等)が開示されている。
【0006】
さらに、高レベル一時的特徴の具体例として、傾き特徴、Dev特徴、エネルギー等高線特徴(En?con)、ピッチ関連特徴、強度関連特徴が開示されている。
【0007】
特許文献1に記載のうつ病評価モデルには、一例として3つの分類子(ガウシアンバックエンド(GB:Gaussian Backend)、決定木(DT:Decision Trees)、ニューラルネットワーク(NN:Neural Network)が用いられる。GB分類子を用いる実施形態において、特定の数の特徴(例えば、最良の4つの特徴)が選択され、さらに、システムコンビネーションが患者のスピーチに対して実行される。このようなうつ病評価モデルを用いることにより、典型的な臨床評価よりも正確な予想を提供することが可能とされる。
【0008】
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記特許文献1には、患者のスピーチパターンからいくつかのスピーチ特徴を算出し、これを機械学習済みのうつ病評価モデルに入力することにより、うつ病の可能性を予測できることが記載されている。しかしながら、算出したスピーチ特徴の少なくとも1つを用いることが記載されているのみである。機械学習による予測の精度を上げるためには、使用する特徴量の数を増やすことが1つの方法であるが、単に数を増やすだけでは予測精度の向上に限界がある。
【0010】
予測精度を更に上げるために、例えば、算出した複数の特徴量を統合的に用いることが考えられる。上記特許文献1においても、正規化相互相関関数を用いることが記載されている(段落[0028]参照)。しかしながら、相互相関は、2つの特徴量についての線形的な相関の分析には有効であるが、非線形な関係を捉えることはできない。うつ病に罹っている患者が話す声は、複数の特徴量が非線形的な関係性を有し、かつそれが非定常的に変化する可能性があるため、特徴量の相互相関を分析するだけでは予測精度を十分に向上させることができないという問題がある。
【0011】
本発明は、このような問題を解決するために成されたものであり、被験者が特定の疾患に罹っている可能性や重症度の予測精度を向上させることができるようにすることを目的とする。
【課題を解決するための手段】
【0012】
上記した課題を解決するために、本発明では、時系列に値が変化する一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出部と、所定時間単位ごとに時系列に算出された複数種類の音響的特徴量について、複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値を算出する処理を、移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出部と、空間遅延行列に対して所定の演算を行うことにより、空間遅延行列に特有の行列特有データを算出する行列演算部と、行列特有データを学習済みの疾患予測モデルに入力することによって被験者の疾患レベルを予測する疾患予測部とを備え、複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出するようにしている。
【発明の効果】
【0013】
上記のように構成した本発明によれば、時系列に値が変化する時系列データから所定時間単位ごとに算出された複数種類の特徴量をもとに、トレンド除去相互相関解析値または相互情報量から成る関係値を算出しているので、特徴量どうしの非線形的かつ非定常的な関係性を反映した関係値を得て、その関係値に基づいて被験者の疾患レベルを予測することができる。これにより、複数種類の特徴量の関係性が時間の経過と共に非線形的かつ非定常的に変化する被験者の時系列データを用いて、被験者の疾患レベル(特定の疾患に罹っている可能性や重症度など)をより高精度に予測することができる。
【図面の簡単な説明】
【0014】
【
図1】第1の実施形態による予測モデル生成装置の機能構成例を示すブロック図である。
【
図2】第1の実施形態による疾患予測装置の機能構成例を示すブロック図である。
【
図3】第1の実施形態の行列算出部による空間遅延行列の算出内容を説明するための図である。
【
図4】第1の実施形態の行列算出部による空間遅延行列の算出内容を説明するための図である。
【
図5】第2の実施形態による予測モデル生成装置の機能構成例を示すブロック図である。
【
図6】第2の実施形態による疾患予測装置の機能構成例を示すブロック図である。
【
図7】第2の実施形態のテンソル生成部により生成される3次元テンソルの一例を示す図である。
【発明を実施するための形態】
【0015】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。
図1は、第1の実施形態による予測モデル生成装置10の機能構成例を示すブロック図である。第1の実施形態による予測モデル生成装置10は、被験者が特定の疾患に罹っている可能性または罹患している場合の重症度を予測するための疾患予測モデルを生成するものである。疾患予測モデルの生成は、機械学習を用いて行う。第1の実施形態では一例として、うつ病に罹っている可能性または重症度を予測するための疾患予測モデルを生成するものとする。
【0016】
図1に示すように、第1の実施形態による予測モデル生成装置10は、機能構成として、学習用データ入力部11、特徴量算出部12、行列算出部13、行列分解部14(行列演算部に相当)および予測モデル生成部15を備えている。これらの機能ブロック11~15は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、各機能ブロック11~15は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶された疾患予測用プログラムが動作することによって実現される。
【0017】
学習用データ入力部11は、うつ病の疾患レベルが既知である複数人の対象者が他者との間で行った一連の会話音声のデータ(時系列に値が変化する時系列データの一例)を学習用データとして入力する。ここでいう「対象者」とは、うつ病に罹患している患者および罹患していない健常者であり、このような対象者が会話を行う「他者」とは、例えば医師である。
【0018】
疾患レベルとは、対象者が罹患しているうつ病の重症度に対応する値であり、うつ病に関して一般的に重症度の尺度として用いられている「うつ病重症度評価尺度」に対応した値である。うつ病重症度評価尺度は、例えば、専門家面接によるハミルトンうつ病評価尺度(HAM-D:Hamilton Depression Rating Scale)、16項目の自己記入式の評価尺度で評価される簡易抑うつ症状尺度(QIDS-J:Quick Inventory of Depressive Symptomatology)、アメリカ精神医学会の診断基準DSM-IV(The Diagnostic and Statistical Manual of Mental Disorders)などである。
【0019】
うつ病に罹患している患者については、事前の医師による診断または自己診断によって、上述したうつ病重症度評価尺度に基づきうつ病の重症度が特定されており、当該重症度に応じた疾患レベルが正解ラベルとして会話音声のデータに付与されている。また、うつ病に罹患していない健常者については、最低値の疾患レベル(ゼロ値であってもよい)が正解ラベルとして会話音声のデータに付与されている。なお、会話音声のデータに正解ラベルが付与されているというのは、正解ラベルのデータが会話音声のデータと共に一体的に構成されているという意味では必ずしもなく、会話音声のデータと正解ラベルのデータとが別のデータとして存在し、互いが関連付けられているものであってもよい。
【0020】
会話音声のデータは、対象者が医師との間で行った自由会話を録音した音声データのうち、対象者の発話音声のみを抽出した音声データある。対象者と医師との間の自由会話は、例えば、5~10分程度の問診形式で行う。すなわち、医師が対象者に対して質問し、対象者がその質問に対して答えるといった形式の会話を繰り返し行う。そして、そのときの会話をマイクより入力して録音し、公知の話者認識技術を用い、一連の会話音声から対象者および医師の音響的特徴を抽出した上で、その音響的特徴の違いに基づいて対象者の発話部分の音声データを抽出する。
【0021】
この場合において、医師の音声を事前に録音してその音響的特徴を記憶しておいて、対象者と医師との間で行われる一連の会話音声のうち、記憶した音響的特徴またはそれに近い特徴を有する音声部分を医師による発話音声として認識し、それ以外の音声部分を対象者による発話音声の音声データとして抽出するようにしてもよい。また、会話音声に基づいて話者認識を行う際に、雑音や反響音などのノイズを除去して話者音声のみを抽出するノイズ除去処理その他の前処理を行うようにしてもよい。
【0022】
なお、対象者と医師との会話音声から対象者の音声データを抽出する方法はこれに限定されない。例えば、対象者と医師とが電話を通じて会話を行う場合や、ネットワークを通じて端末とサーバとが接続されてなる遠隔医療システムなどを通じて会話を行う場合などでは、対象者が使用する電話機または端末から入力される音声を録音することにより、対象者の音声データを簡単に取得することが可能である。
【0023】
特徴量算出部12は、学習用データ入力部11により入力された会話音声のデータ(対象者の発話音声の音声データ)を分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する。所定時間単位は、対象者の会話音声を短く分割した個々の時間単位をいい、例えば数十ミリ秒から数秒程度の時間が所定時間単位として用いられる。すなわち、特徴量算出部12は、対象者の会話音声を所定時間単位ごとに区切って分析し、それぞれの所定時間単位から複数種類の音響的特徴量を算出することにより、複数種類の音響的特徴量に関する時系列情報を得る。
【0024】
ここで算出する音響的特徴量は、上述した話者認識の際に抽出する音響的特徴とは異なるものであってよい。特徴量算出部12は、例えば、対象者の声の強さ、基本周波数、ケプストラムピークプロミネンス(CPP)、フォルマント周波数、メル周波数ケプストラム係数(MFCC)のうち少なくとも2つ以上を算出する。これらの音響的特徴量は、うつ病に罹っている患者に特有の特徴が現れる可能性があるものである。具体的には、以下の通りである。
【0025】
・声の強さ:うつ病患者の場合は低くなる傾向がある。
・基本周波数:抑うつに罹患している患者の場合は、より低く、かつ一定時間内における最小周期区間の繰り返し回数がより少なくなる傾向がある。
・CPP:声門における息切れの特性を表す特徴量であり、うつ病患者に生じることのある発声障害の重症度の測定値として使用されている。
・フォルマント周波数:音声スペクトルにおいて時間的に移動している複数のピークであり、周波数の低い順に第1フォルマント、第2フォルマント、・・・、第Nフォルマントという。フォルマント周波数は声道の形状と関係し、抑うつとフォルマント周波数の音量との間には相関があることが知られている。
・MFCC:声道特性を表す特徴量であり、重症度の異なるうつ病患者における筋肉制御の喪失の程度の間接的指標となり得るものである。
【0026】
行列算出部13は、特徴量算出部12により所定時間単位ごとに時系列に算出された複数種類の音響的特徴量について、所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値を算出する処理を、移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する。ここで、行列算出部13は、複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析(DCCA:Detrended Cross-Correlation Analysis)による解析値(以下、DCCA係数という)または相互情報量の少なくとも一方を算出する。少なくとも一方とは、DCCA係数を個々の行列要素とする空間遅延行列を算出してもよいし、相互情報量を個々の行列要素とする空間遅延行列を算出してもよいし、その両方を算出してもよいという意味である。
【0027】
トレンド除去相互相関解析は、フラクタル解析の一種であり、時系列データに含まれる線形関係のトレンドを差分操作によって除去した上で相互相関を解析する手法である。線形関係のトレンドを除去して分析することにより、複数の音響的特徴量どうしの非線形的かつ非定常的な関係性を分析することが可能である。すなわち、複数の音響的特徴量どうしの非線形的な関係性で、かつそれが時間の経過と共に変動し得る非定常的な関係性を、DCCA係数の時系列情報によって表すことが可能である。
【0028】
相互情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量であり、2つの音響的特徴量が共有する情報量の尺度と言える。例えば、一方の音響的特徴量が特定された場合に、もう一方の音響的特徴量をどれだけの確度で推測できるようになるかを示すものであり、例えば2つの音響的特徴量が完全に独立したものである場合、相互情報量はゼロとなる。言い換えると、相互情報量は、2つの音響的特徴量がどの程度、線形的または非線形的な関係性を有しているかを表す指標であると言え、相互情報量の時系列情報によって、複数の音響的特徴量どうしの非線形的かつ非定常的な関係性を表すことが可能である。
【0029】
以下に、
図3および
図4を用いて、行列算出部13による空間遅延行列の算出内容を説明する。ここでは説明を簡単にするため、2つの音響的特徴量X,Yから空間遅延行列を算出する例について説明する。
【0030】
いま、特徴量算出部12により所定時間単位ごとに時系列に算出された第1の音響的特徴量Xと、所定時間単位ごとに時系列に算出された第2の音響的特徴量Yとを次の(式1)および(式2)のように表す。
X=[x1,x2,・・・,xT] ・・・(式1)
Y=[y1,y2,・・・,yT] ・・・(式2)
x1,x2,・・・,xTは、T個の所定時間単位ごとに算出された第1の音響的特徴量Xの時系列情報である。y1,y2,・・・,yTは、T個の所定時間単位ごとに算出された第2の音響的特徴量Yの時系列情報である。
【0031】
図3(a)は、T=8とした場合に、2つの音響的特徴量X,Yを時系列に並べて示したものであり、上から下の方向に時間が経過している。T=8というのは、対象者の会話音声(一連の会話の中の1回の発話音声であってもよいし、全ての発話音声であってもよい)の全区間を8個に分割したことを意味する。行列算出部13は、
図3(a)のように配列される2つの音響的特徴量X,Yの時系列情報に対して、所定時間長の移動窓を所定遅延量ずつ遅延させて順次設定する。
図3に示す例では、所定遅延量δは固定長の値であり、δ=2に設定されている。また、所定時間長pは移動窓を設定するごとに変わる可変長の値であり、p=2,4,6,8(δ=2の整数倍の値)である。
【0032】
図4は、可変設定される複数の移動窓に含まれる2つの音響的特徴量X,Yどうしの関係値をそれぞれ算出して行列表現したものである。
図4の例では、4×4の正方行列を空間遅延行列として算出している。すなわち、
図3(a)の時系列情報に対して16個の移動窓を設定して、それぞれの移動窓から2つの音響的特徴量X,Yどうしの関係値をそれぞれ算出した結果が、
図4に示す空間遅延行列となる。上述したように、2つの音響的特徴量X,Yどうしの関係値は、DCCA係数または相互情報量の少なくとも一方であり、この関係値を求める演算をf(X,Y)で表すものとする。
【0033】
本実施形態では、空間遅延行列の16個の要素(m,n)における関係値Amn(m=1,2,3,4、n=1,2,3,4)を、次の(式3)に示す演算によって算出するようにしている。
Amn=f(Xm,Yn) ・・・(式3)
Xm=[x1+(m-1)*δ,x1+(m-1)*δ+1,x1+(m-1)*δ+2,・・・,x1+(m-1)*δ+(p-1)]
Yn=[y1+(n-1)*δ,y1+(n-1)*δ+1,y1+(n-1)*δ+2,・・・,y1+(n-1)*δ+(p-1)]
(m=n=1のときp=8、1<m,n≦2のときp=6、2<m,n≦3のときp=4、3<m,n≦4のときp=2)
【0034】
図3(b)は、
図4に示す空間遅延行列の要素(1,1)の位置における関係値A
11を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(1,1)の関係値A
11を算出する場合、(式3)においてm=1,n=1,δ=2,p=8として
図3(b)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X
1,Y
1を用いて関係値A
11=f(X
1,Y
1)を算出する。
X
1=[x
1,x
2,x
3,x
4,x
5,x
6,x
7,x
8]
Y
1=[y
1,y
2,y
3,y
4,y
5,y
6,y
7,y
8]
【0035】
図3(c)は、
図4に示す空間遅延行列の要素(1,2)の位置における関係値A
12を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(1,2)の関係値A
12を算出する場合、(式3)においてm=1,n=2,δ=2,p=6として
図3(c)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X
1,Y
2を用いて関係値A
12=f(X
1,Y
2)を算出する。
X
1=[x
1,x
2,x
3,x
4,x
5,x
6]
Y
2=[y
3,y
4,y
5,y
6,y
7,y
8]
【0036】
図3(d)は、
図4に示す空間遅延行列の要素(2,1)の位置における関係値A
21を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(2,1)の関係値A
21を算出する場合、(式3)においてm=2,n=1,δ=2,p=6として
図3(d)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X
2,Y
1を用いて関係値A
21=f(X
2,Y
1)を算出する。
X
2=[x
3,x
4,x
5,x
6,x
7,x
8]
X
1=[y
1,y
2,y
3,y
4,y
5,y
6]
【0037】
図3(e)は、
図4に示す空間遅延行列の要素(4,4)の位置における関係値A
44を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(4,4)の関係値A
44を算出する場合、(式3)においてm=4,n=4,δ=2,p=2として
図3(e)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X
4,Y
4を用いて関係値A
44=f(X
4,Y
4)を算出する。
X
4=[x
7,x
8]
Y
4=[y
7,y
8]
【0038】
行列分解部14は、行列算出部13により算出された空間遅延行列に対して分解演算を行うことにより、空間遅延行列に特有の行列特有データとして、行列分解値を算出する。行列分解部14は、分解演算の一例として固有値分解を行い、空間遅延行列に特有の固有値を算出する。なお、分解演算として、対角化、特異値分解、ジョルダン分解その他の演算を行うようにしてもよい。
【0039】
以上のように特徴量算出部12、行列算出部13および行列分解部14により算出される固有値は、対象者の会話音声から抽出される複数種類の音響的特徴量の時系列情報に関して、非線形的および非定常的な関係性を反映した固有のスカラ値であると言える。本実施形態では、学習用データ入力部11により入力された複数人の会話音声のデータのそれぞれについて、特徴量算出部12、行列算出部13および行列分解部14の処理を行うことによって複数人分の固有値を得る。そして、その固有値を予測モデル生成部15に入力して機械学習処理を行うことにより、疾患予測モデルを生成する。
【0040】
予測モデル生成部15は、行列分解部14により算出された複数人分の固有値および会話音声のデータに正解ラベルとして付与されている疾患レベルの情報を用いて、被験者に関する固有値が入力された際に被験者の疾患レベルを出力するための疾患予測モデルを生成する。ここでいう被験者とは、うつ病に罹患しているか否か、罹患している場合の重症度が未知の者である。疾患予測モデルは、例えばニューラルネットワーク(パーセプトロン、畳み込みニューラルネットワーク、再起型ニューラルネットワーク、残差ネットワーク、RBFネットワーク、確率的ニューラルネットワーク、スパイキングニューラルネットワーク、複素ニューラルネットワークなどの何れでもよい)を活用した機械学習に基づく予測モデルである。
【0041】
すなわち、予測モデル生成部15は、対象者の会話音声から算出された固有値と、それに対する疾患レベルの正解データとを含む複数人分のデータセットを学習用データとしてニューラルネットワークに与えて機械学習することにより、ある対象者の固有値が入力された際にそれに対応する正解としての疾患レベルが高い確率で出力されやすくなるように、ニューラルネットワークの各種パラメータを調整する。そして、予測モデル生成部15は、生成した疾患予測モデルを予測モデル記憶部100に記憶させる。
【0042】
なお、ここではニューラルネットワークによる予測モデルを用いる例について説明したが、これに限定されるものではない。例えば、予測モデルの形態は、回帰モデル(ロジスティック回帰、サポートベクターマシーンなどをベースとする予測モデル)、木モデル(決定木、ランダムフォレスト、勾配ブースティング木などをベースとする予測モデル)、ベイズモデル(ベイズ推論などをベースとする予測モデル)、クラスタリングモデル(k近傍法、階層型クラスタリング、非階層型クラスタリング、トピックモデルなどをベースとする予測モデル)などのうち何れかとすることも可能である。ここに挙げた予測モデルは一例に過ぎず、これに限定されるものではない。
【0043】
図2は、第1の実施形態による疾患予測装置20の機能構成例を示すブロック図である。第1の実施形態による疾患予測装置20は、
図1に示した予測モデル生成装置10により生成された疾患予測モデルを用いて、被験者がうつ病に罹っている可能性または罹患している場合の重症度を予測するものである。
【0044】
図2に示すように、第1の実施形態による疾患予測装置20は、機能構成として、予測対象データ入力部21、特徴量算出部22、行列算出部23、行列分解部24および疾患予測部25を備えている。これらの機能ブロック21~25は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、各機能ブロック21~25は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶された疾患予測用プログラムが動作することによって実現される。
【0045】
予測対象データ入力部21は、うつ病に罹っている可能性または罹患している場合の重症度が未知の被験者が他者(医師)との間で行った一連の会話音声のデータを予測対象データとして入力する。予測対象データ入力部21が入力する会話音声のデータは、学習用データ入力部11が入力する会話音声のデータと同様であり、被験者の発話音声の音声データである。
【0046】
特徴量算出部22、行列算出部23および行列分解部24は、予測対象データ入力部21により入力された会話音声のデータ(被験者の発話部分の音声データ)に対して、
図1に示した特徴量算出部12、行列算出部13および行列分解部14と同様の処理を実行する。これにより、特定の被験者の会話音声から抽出される複数種類の音響的特徴量の時系列情報に関して、非線形的および非定常的な関係性を反映した行列分解値(例えば、固有値)を算出する。
【0047】
疾患予測部25は、行列分解部24により算出された固有値を、予測モデル記憶部100に記憶されている学習済みの疾患予測モデルに入力することにより、被験者の疾患レベルを予測する。上述したように、予測モデル記憶部100に記憶された疾患予測モデルは、固有値が入力された際に被験者の疾患レベルを出力するように、学習用データを用いた機械学習処理によって予測モデル生成装置10により生成されている。
【0048】
以上詳しく説明したように、第1の実施形態では、会話音声のデータから音響的特徴量を抽出して機械学習を行い、これにより生成される疾患予測モデルに基づいて被験者の疾患レベルを予測するに際して、複数種類の音響的特徴量どうしの関係値を用いた空間遅延行列を算出し、さらに空間遅延行列から行列分解値を算出してこれを疾患予測モデルの入力値として用いるようにしている。特に、第1の実施形態では、複数種類の音響的特徴量どうしの関係値として、DCCA係数または相互情報量の少なくとも一方に関する関係値を算出するようにしている。
【0049】
このように構成した第1の実施形態によれば、時系列に値が変化する会話音声のデータから所定時間単位ごとに算出された複数種類の音響的特徴量の時系列情報をもとに、DCCA係数または相互情報量から成る関係値を算出しているので、非線形的かつ非定常的な関係性を反映した関係値を得て、その関係値に基づいて被験者の疾患レベルを予測することができる。これにより、複数種類の音響的特徴量の関係性が時間の経過と共に非線形的かつ非定常的に変化する被験者の会話音声のデータを用いて、被験者の疾患レベル(特定の疾患に罹っている可能性や重症度など)をより高精度に予測することができる。
【0050】
なお、上記第1の実施形態では、
図1に示す予測モデル生成装置10と
図2に示す疾患予測装置20とを別装置として構成する例について説明したが、本発明はこれに限定されない。例えば、
図1に示す機能ブロック11~14と
図2に示す機能ブロック21~24とは基本的に同様の処理を行うものなので、これらを1つにまとめて、疾患予測モデルを生成する機能と疾患レベルを予測する機能とを備えた1つの装置として構成するようにしてもよい。これは、後に述べる第2の実施形態についても同様である。
【0051】
また、上記第1の実施形態において、
図1に示す機能ブロック11~15のうち一部を端末装置が備える一方、残りの一部をサーバ装置が備え、端末装置とサーバ装置とが協働して疾患予測モデルを生成するようにしてもよい。同様に、
図2に示す機能ブロック21~25のうち一部を端末装置が備える一方、残りの一部をサーバ装置が備え、端末装置とサーバ装置とが協働して疾患レベルを予測するようにしてもよい。これは、後に述べる第2の実施形態についても同様である。
【0052】
また、上記第1の実施形態では説明を簡単にするため、2つの音響的特徴量X,Yから1つの空間遅延行列を算出し、当該1つの空間遅延行列から行列分解値を算出する例について説明したが、3つ以上の音響的特徴量の組み合わせから2つ以上の空間遅延行列を算出し、当該2つ以上の空間遅延行列からそれぞれ行列分解値を算出するようにしてもよい。例えば、3つの音響的特徴量X,Y,Zを用いる場合、音響的特徴量X,Yの組み合わせから第1の空間遅延行列を算出し、音響的特徴量X,Zの組み合わせから第2の空間遅延行列を算出し、音響的特徴量Y,Zの組み合わせから第3の空間遅延行列を算出した上で、3つの空間遅延行列からそれぞれ行列分解値を算出するようにしてもよい。音響的特徴量の様々な組み合わせに基づいて固有値を算出することにより、疾患予測モデルの入力値として使用するパラメータの数を増やし、予測の精度を上げることが可能である。
【0053】
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。
図5は、第2の実施形態による予測モデル生成装置10’の機能構成例を示すブロック図である。第2の実施形態による予測モデル生成装置10’も、被験者が特定の疾患に罹っている可能性または罹患している場合の重症度を予測するための疾患予測モデルを生成するものである。
【0054】
図5において、
図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
図5に示すように、第2の施形態による予測モデル生成装置10’は、
図1に示した行列算出部13、行列分解部14および予測モデル生成部15に代えて、行列算出部13’、テンソル生成部16(行列演算部に相当)および予測モデル生成部15’を備えている。
【0055】
行列算出部13’は、特徴量算出部12により所定時間単位ごとに時系列に算出された複数種類の特徴量どうしの関係値(トレンド除去相互相関解析値または相互情報量)を算出する処理を、特徴量の組み合わせを変えてそれぞれ行うことにより、同じ行数および同じ列数から成る複数の空間遅延行列を算出する。
【0056】
例えば、行列算出部13’は、第1フォルマント周波数(F1)、第2フォルマント周波数(F2)、ケプストラムピークプロミネンス(CPP)および強度(I)の4つの特徴量を用いて、F1とF2との関係値を示した空間遅延行列、F1とCPPとの関係値を示した空間遅延行列、F1とIとの関係値を示した空間遅延行列、F2とCPPとの関係値を示した空間遅延行列、F2とIとの関係値を示した空間遅延行列、CPPとIとの関係値を示した空間遅延行列を算出する。これら6つの空間遅延行列は、同じ行数および同じ列数から成る同次元の空間遅延行列である。ここでは、4つの特徴量F1,F2,CPP,Iから何れか2つを選んで得られる全ての組み合わせについて空間遅延行列を算出する例を示したが、一部の組み合わせについて空間遅延行列を算出するようにしてもよい。
【0057】
別の例として、行列算出部13’は、複数個のメル周波数ケプストラム係数(MFCC)から何れか2つを選んで得られる全てまたは一部の組み合わせについて、MFCCどうしの関係値を示した複数の空間遅延行列を算出するようにしてもよい。この場合に生成される複数の空間遅延行列は、同じ行数および同じ列数から成る同次元の空間遅延行列である。4つの特徴量F1,F2,CPP,Iから何れか2つを選んで得られる全てまたは一部の組み合わせと、複数個のMFCCから何れか2つを選んで得られる全てまたは一部の組み合わせとの両方について、複数の空間遅延行列を算出するようにしてもよい。
【0058】
さらに、行列算出部13’は、以上のようにして算出した複数の空間遅延行列(以下、オリジナルの空間遅延行列という)どうしの差分を演算することにより、1以上の差分系列の空間遅延行列を算出するようにしてもよい。例えば、複数のオリジナルの空間遅延行列をM1,M2,M3,M4,M5,M6で表記するとき、1以上の差分系列の空間遅延行列とは、M2-M1,M3-M2,M4-M3,M5-M4,M6-M5などの差分演算によって求められるものである。
【0059】
ここで、行列算出部13’は、複数のオリジナルの空間遅延行列どうしの差分を演算することによって複数の1次差分系列の空間遅延行列を算出するとともに、当該複数の1次差分系列の空間遅延行列どうしの差分を演算することによって1以上の2次差分系列の空間遅延行列を算出するようにしてもよい。以上に例示したM2-M1,M3-M2,M4-M3,M5-M4,M6-M5が複数の1次差分系列の空間遅延行列である。2次差分系列の空間遅延行列とは、例えば(M3-M2)-(M2-M1),(M4-M3)-(M3-M2),(M5-M4)-(M4-M3),(M6-M5)-(M5-M4)などの差分演算によって求められるものである。さらに、3次以上の差分系列の空間遅延行列を算出するようにしてもよい。
【0060】
テンソル生成部16は、行列算出部13’により算出された複数の空間遅延行列を用いて、空間遅延行列に特有の行列特有データとして、複数種類の特徴量どうしの関係値(トレンド除去相互相関解析値または相互情報量)の3次元テンソルを生成する。行列算出部13’が差分系列の空間遅延行列を算出している場合、テンソル生成部16は、行列算出部13’により算出された複数のオリジナルの空間遅延行列および1以上の差分系列の空間遅延行列を用いて3次元テンソルを生成する。
【0061】
図7は、第2の実施形態のテンソル生成部16により生成される3次元テンソル(i,j,k)の一例を示す図である。
図7に示す例では、テンソル生成部16は、第1の3次元テンソル71および第2の3次元テンソル72を生成している。第1の3次元テンソル71は、例えば、4つの特徴量F1,F2,CPP,Iから算出される複数の空間遅延行列(オリジナルの空間遅延行列および差分系列の空間遅延行列)711,712,713,・・・をスタックすることによって生成される。何れの空間遅延行列もn行×m列の行列である。第2の3次元テンソル72は、例えば、複数のMFCCから算出される複数の空間遅延行列(オリジナルの空間遅延行列および差分系列の空間遅延行列)721,722,723,・・・をスタックすることによって生成される。何れの空間遅延行列もn行×m列の行列である。なお、
図7に示した3次元テンソルは一例であり、これに限定されるものではない。
【0062】
予測モデル生成部15’は、テンソル生成部16により生成された関係値の3次元テンソルおよび会話音声のデータに正解ラベルとして付与されている疾患レベルの情報を用いて、被験者に関する関係値の3次元テンソルが入力された際に被験者の疾患レベルを出力するための疾患予測モデルを生成する。
【0063】
すなわち、予測モデル生成部15’は、対象者(特定の疾患に罹患している患者および罹患していない健常者)の会話音声から算出された関係値の3次元テンソルと、それに対する疾患レベルの正解データとを含む複数人分のデータセットを学習用データとしてニューラルネットワークに与えて機械学習することにより、ある対象者の3次元テンソルが入力された際にそれに対応する正解としての疾患レベルが高い確率で出力されやすくなるように、ニューラルネットワークの各種パラメータを調整する。そして、予測モデル生成部15’は、生成した疾患予測モデルを予測モデル記憶部100に記憶させる。
【0064】
図6は、第2の実施形態による疾患予測装置20’の機能構成例を示すブロック図である。第2の実施形態による疾患予測装置20’は、
図5に示した予測モデル生成装置10’により生成された疾患予測モデルを用いて、被験者が特定の疾患に罹っている可能性または罹患している場合の重症度を予測するものである。この
図6において、
図2に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0065】
図6に示すように、第2の実施形態による疾患予測装置20’は、
図2に示した行列算出部23、行列分解部24および疾患予測部25に代えて、行列算出部23’、テンソル生成部26および疾患予測部25’を備えている。
【0066】
特徴量算出部22、行列算出部23’、テンソル生成部26は、予測対象データ入力部21により入力された会話音声のデータ(被験者の発話部分の音声データ)に対して、
図5に示した特徴量算出部12、行列算出部13’およびテンソル生成部16と同様の処理を実行する。これにより、特定の被験者の会話音声から抽出される複数種類の音響的特徴量の時系列情報に関して、非線形的および非定常的な関係性を反映した関係値を要素とする3次元テンソルを生成する。
【0067】
疾患予測部25’は、テンソル生成部26により算出された関係値の3次元テンソルを、予測モデル記憶部100に記憶されている学習済みの疾患予測モデルに入力することにより、被験者の疾患レベルを予測する。上述したように、予測モデル記憶部100に記憶された疾患予測モデルは、3次元テンソルが入力された際に被験者の疾患レベルを出力するように、学習用データを用いた機械学習処理によって予測モデル生成装置10’により生成されている。
【0068】
以上詳しく説明したように、第2の実施形態では、特徴量どうしの非線形的および非定常的な関係性を反映した複数の関係値を要素とする空間遅延行列そのものを3次元テンソルという形態で疾患予測モデルに入力するようにしている。すなわち、空間遅延行列からスカラ値である固有値を算出して疾患予測モデルに入力する第1の実施形態と異なり、情報量を圧縮していない空間遅延行列を疾患予測モデルの入力として使用するようにしている。これにより、被験者が特定の疾患に罹っている可能性や重症度の予測精度をより向上させることができる。
【0069】
なお、ここでは3次元テンソル(特許請求の範囲のN=3のケース)を生成する例について説明したが、Nは1、2または4以上の値であってもよい。N=2の場合、第1の実施形態と同様の処理によって生成される1つの空間遅延行列が2次元テンソルに相当する。N=1の場合、1つの空間遅延行列において、mまたはnの何れかの値が1である空間遅延行列が1次元テンソルに相当する。
【0070】
上記第1および第2の実施形態では、対象者または被験者と医師との問診形式による自由会話を録音して会話音声のデータを得る例について説明したが、本発明はこれに限定されない。例えば、対象者または被験者が日常生活の中で行っている自由会話を録音し、その音声データを用いて上記実施形態で説明した処理を行うようにしてもよい。
【0071】
また、上記第1および第2の実施形態では、うつ病の疾患レベルを予測する例について説明したが、本発明はこれに限定されない。例えば、睡眠困難、不安の精神的症状、不安の身体的症状、精神運動抑制、興味の減退など、被験者のうつ状態のさまざまな側面に関する個々の項目ごとに疾患レベルを予測するようにしてもよい。
【0072】
また、上記第1および第2の実施形態において、被験者の疾患レベルの予測を定期的または非定期的に繰り返し行うことにより、うつ状態の改善または悪化の状況を捉えるようにしてもよい。
【0073】
また、上記第1および第2の実施形態では、音響的特徴量として、声の強さ、基本周波数、CPP、フォルマント周波数、MFCCのうち少なくとも2つ以上を算出する例について説明したが、これらは一例であり、これ以外の音響的特徴量を算出するようにしてもよい。
【0074】
また、上記第1および第2の実施形態では、所定遅延量をδ=2の固定長とする例について説明したが、本発明はこれに限定されない。すなわち、所定遅延量を可変長として空間遅延行列を算出することにより、空間遅延行列から算出する固有値のバリエーションを更に増やすようにしてもよい。
【0075】
また、上記第1および第2の実施形態では、会話音声のデータを分析することによって疾患レベルの予測を行う例について説明したが、時系列に値が変化するデータであれば、DCCA係数または相互情報量の少なくとも一方を用いた空間遅延行列を算出して行列分解値を求めることに関して有効である。
【0076】
例えば、人の顔を撮影した動画データを分析し、人の顔に特有の複数種類の特徴量を抽出して、DCCA係数または相互情報量の少なくとも一方から成る関係値を個々の行列要素とする空間遅延行列を算出することが可能である。顔に関する特徴量として、例えば、所定時間単位での表情(無表情、喜び、驚き、怒り、悲しみ)の割合、強さ、平均持続時間、次の表情に移行する可能性などを用いることが可能である。また、顔に関する別の特徴量として、瞬目に関するもの、例えば左と右の瞬きのタイミング、時間差などを用いることも可能である。
【0077】
また、時系列に値が変化するデータの別の例として、人の身体(例えば、頭、胸、肩、腕など)の動きを撮影した動画データを用いることも可能である。なお、人の身体の動きを捉えた時系列データは、動画データである必然性はない。例えば、加速度センサや赤外線センサなどにより検出される時系列データであってもよい。
【0078】
また、会話音声の音声データから抽出した音響的特徴量、動画データから抽出した表情や瞬目に関する特徴量、動画データまたはセンサデータなどから抽出した体動に関する特徴量をマルチモーダルパラメータとして使用して、空間遅延行列の算出および行列分解値の算出を行い、得られた行列分解値を用いて疾患レベルの予測を行うようにしてもよい。
【0079】
また、上記第1および第2の実施形態では、音響的特徴量どうしの関係値としてDCCA係数または相互情報量の少なくとも一方を用いる例について説明したが、これしか用いてはいけないという趣旨ではなく、これ以外の関係値を併用するようにしてもよい。例えば、2つの事象どうしの線形的な関係性を捉えることに有効な相互相関の相関係数を更に算出し、これも加えて空間遅延行列を算出するようにすることも可能である。より具体的には、上述のようにマルチモーダルパラメータを使用する場合において、DCCA係数または相互情報量の少なくとも一方を用いて関係値を算出する特徴量と、相互相関の相関係数またはそれ以外の係数を用いて関係値を算出する特徴量とを使い分けるようにしてもよい。
【0080】
また、上記第1および第2の実施形態では、疾患の一例としてうつ病の疾患レベルを予測する例について説明したが、予測可能な疾患はこれに限定されない。例えば、認知症、不眠症、注意欠陥・多動性障害(ADHD:Attention-deficit hyperactivity disorder)、統合失調症、心的外傷後ストレス障害(PTSD:Post Traumatic Stress Disorder)その他の神経・精神障害に関する疾患の予測を行うことも可能である。
【0081】
その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0082】
10,10’ 予測モデル生成装置
11 学習用データ入力部
12 特徴量算出部
13,13’ 行列算出部
14 行列分解部(行列演算部)
15,15’ 予測モデル生成部
16 テンソル生成部(行列演算部)
20,20’ 疾患予測装置
21 予測対象データ入力部
22 特徴量算出部
23,23’ 行列算出部
24 行列分解部(行列演算部)
25,25’ 疾患予測部
26 テンソル生成部(行列演算部)
100 予測モデル記憶部