【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度国立研究開発法人科学技術振興機構、センター・オブ・イノベーション(COI)プログラム「自分で守る健康社会拠点」委託研究開発、産業技術力強化法第19条の適用を受ける特許出願
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下、図面を用いて実施形態について説明する。
【0012】
図1は、推定装置の一実施形態を示す。
【0013】
図1に示した推定装置100は、有線または無線を介して携帯通信端末200に接続される。なお、推定装置100は、ネットワークを介して携帯通信端末200に接続されてもよい。すなわち、推定装置100は、携帯通信端末200とともに推定システムとして動作してもよい。
【0014】
携帯通信端末200は、携帯電話、スマートフォンあるいはタブレット型端末等である。携帯通信端末200は、携帯通信端末200に含まれるマイクロホンを介して被験者PAが発話する音声の信号を取得し、取得した信号を所定のサンプリング周波数(例えば、11キロヘルツ等)でサンプリングすることでデジタル信号の音声データを生成する。そして、携帯通信端末200は、生成した音声データを推定装置100に送信する。また、携帯通信端末200は、推定装置100により推定された結果を、携帯通信端末200に含まれる有機EL(Organic Electro-Luminescence)や液晶等のディスプレイに表示する。
【0015】
なお、携帯通信端末200の代わりに、マイクロホンが、有線または無線を介して、推定装置100に接続されてもよい。この場合、推定装置100は、マイクロホンからの音声の信号を、所定のサンプリング周波数でサンプリングし、デジタル信号の音声データを取得してもよい。
【0016】
推定装置100は、CPU(Central Processing Unit)等の演算処理装置と、ハードディスク装置等の記憶装置とを有するコンピュータ装置等である。推定装置100は、例えば、演算処理装置が記憶装置に記憶された推定プログラムを実行することにより、算出部10、設定部20および推定部30として機能する。なお、算出部10、設定部20および推定部30は、ハードウェアにより実現されてもよい。
【0017】
また、推定プログラムは、例えば、DVD(Digital Versatile Disc)等の光ディスクやUSB(Universal Serial Bus)メモリ等の可搬型記憶媒体に記録して頒布されてもよい。あるいは、推定プログラムは、推定装置100に含まれるネットワークインタフェースを介して、ネットワーク等を通じてダウンロードされ、推定装置100の記憶装置に格納されてもよい。
【0018】
また、推定装置100は、携帯通信端末200において実現されてもよい。すなわち、携帯通信端末200に含まれるCPUが、携帯通信端末200に含まれるメモリ等の記憶部に記憶された推定プログラムを実行することにより、携帯通信端末200は、算出部10、設定部20および推定部30として機能してもよい。
【0019】
算出部10は、例えば、携帯通信端末200を介して取得した被験者PAの音声データを用いて、音声の音圧の波形が基準圧力を横切る単位時間あたりの回数(以下、“ゼロ点交差率”とも称される)を、音声における波形の変化の激しさの度合いとして算出する。また、算出部10は、被験者PAが発話した音声データを用いて、音声の波形における変化の相関性を示すハースト指数を算出する。算出部10は、算出した被験者PAのゼロ点交差率およびハースト指数を、設定部20および推定部30に出力する。ゼロ点交差率およびハースト指数は、第1特徴量および第2特徴量の一例である。算出部10の動作、ゼロ点交差率およびハースト指数については、
図2から
図4で説明する。
【0020】
設定部20は、算出部10が算出した被験者PAのゼロ点交差率およびハースト指数から被験者PAの健康状態を推定部30が推定するために、うつ病等の病を患っていない健康な状態を示す健康領域を決定する。設定部20は、決定した健康領域を示す情報を推定部30に出力し、推定部30に健康領域を設定する。例えば、算出部10は、うつ病等の病を患っているか否かの健康状態が既知である複数の人の音声データを推定装置100の記憶装置から読み出し、読み出した音声データから複数の人の各々のゼロ点交差率およびハースト指数を算出する。設定部20は、ゼロ点交差率とハースト指数との2次元空間において、算出部10により算出された複数の人のゼロ点交差率およびハースト指数の分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。そして、設定部20は、うつ病等を患っている人の領域と、うつ病等を患っていない健康な人の健康領域とを分ける境界線を決定する。設定部20は、決定した境界線を含む健康領域を示す情報を推定部30に出力する。
【0021】
なお、健康領域を示す情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記憶装置に記憶されている場合、設定部20は省略されてもよい。
【0022】
推定部30は、算出部10により算出された被験者PAのゼロ点交差率およびハースト指数と、設定部20により設定された健康領域とに基づいて被験者PAにおける健康状態(例えば、うつ状態等か否か)を推定する。そして、推定部30は、推定した健康状態を示す情報を携帯通信端末200に出力する。
【0023】
図2は、
図1に示した携帯通信端末200を介して取得した音声データの一例を示す。
図2は、携帯通信端末200を介して取得した被験者PAが発話した音声の音圧の時間変化を示す。なお、
図2の横軸は時刻を示し、
図2の縦軸は音圧を示す。
【0024】
図2では、被験者PAによる発話の音声データのうち、“ありがとう”と発話した発話単位のデータを示す。時刻t0、t1、t2、t3、t4は、発話単位に含まれる“あ”、“り”、“が”、“と”、“う”の各語が発話された開始の時刻を示す。なお、“ありがとう”の発話単位のうち、“り”の語が発話された音声データに対する算出部10の算出処理について説明するが、算出部10は、“ありがとう”の他の語および他の発話単位に対しても、同一または同様に算出処理を実行する。
【0025】
算出部10は、携帯通信端末200から取得した音声データを用いて、ゼロ点交差率およびハースト指数を、512等のサンプル数のウィンドウWD毎に算出する。
図2に示すように、音圧は各語の発話において大きく変化するため、例えば、算出部10は、ゼロ点交差率を算出するために、ウィンドウWDより小さい30等のサンプル数のウィンドウWD1毎に音圧の平均値を算出し、各ウィンドウWD1で算出した平均値を各ウィンドウWD1の基準圧力とする。算出部10は、各ウィンドウWD1において、算出した基準圧力(平均値)を被験者PAの音圧が横切る回数を計測し、ゼロ点交差率を算出する。算出部10は、各ウィンドウWD1で算出したゼロ点交差率の平均値をウィンドウWDのゼロ点交差率ZCRとして算出する。
【0026】
なお、算出部10は、30等のサンプル数のウィンドウWD1の幅で移動平均して、各ウィンドウWD1の基準圧力を算出してもよい。
【0027】
一方、時刻tの音圧x(t)と時刻tから時間τ離れた音圧x(t+τ)との差分の標準偏差σ(τ)は、式(1)に示すように関係付けられる。また、時間間隔τと標準偏差σ(τ)の間には、式(2)に示すようなべき則の関係があることが知られている。そして、式(2)におけるHがハースト指数である。
【0029】
例えば、ホワイトノイズのような音声データの場合、音声データの各データ間において互いに時間的な相関がないため、ハースト指数Hは“0”となる。また、音声データがホワイトノイズからピンクノイズやブラウンノイズになるに従い、すなわち音声の波形が時間的な相関性を有するに従い、ハースト指数Hは“0”より大きな値を示す。例えば、音声データがブラウンノイズの場合、ハースト指数Hは0.5となる。さらに、音声データがブラウンノイズより強い相関性を有する、すなわち音声データが過去の状態に依存する度合いが増すに従い、ハースト指数Hは、0.5から1の間の値を示す。
【0030】
算出部10は、例えば、ウィンドウWDにおいて、時間間隔τが1から15の間の各τに対して音声データの標準偏差σ(τ)を求め、求めた各時間間隔τの標準偏差σ(τ)に対して回帰分析を実行することによりハースト指数Hを算出する。
【0031】
算出部10は、ウィンドウWDの幅の4分の1等の所定の間隔でウィンドウWDを移動させて、各ウィンドウWDにおけるゼロ点交差率ZCRおよびハースト指数Hを算出する。そして、算出部10は、算出した全てのウィンドウWDのゼロ点交差率ZCRおよびハースト指数Hを平均し、平均したゼロ点交差率ZCRおよびハースト指数Hを被験者PAのゼロ点交差率およびハースト指数として推定部30に出力する。
【0032】
図3は、
図1に示した算出部10により算出された複数の人のゼロ点交差率ZCRおよびハースト指数Hの分布の一例を示す。
図3では、縦軸はゼロ点交差率ZCRを示し、横軸はハースト指数Hを示す。また、
図3では、うつ病等の病を患っている人のゼロ点交差率ZCRおよびハースト指数Hをバツ印で示し、健康な人のゼロ点交差率ZCRおよびハースト指数Hを丸印で示す。なお、
図3に示したゼロ点交差率ZCRおよびハースト指数Hの分布は、1218人の音声データを用いて生成されている。そして、1218人のうち、うつ病等の病を患っている人は697人であり、健康な人は521人である。
【0033】
設定部20は、
図3に示した複数の人のゼロ点交差率ZCRおよびハースト指数Hの分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。設定部20は、うつ病等の病を患っている人と、健康な人とを分ける破線で示した境界線を決定する。
図3の場合、破線で示した境界線は、ZCR=−0.299H+0.299と表される。設定部20は、破線で示した境界線より下側の領域を健康領域として、決定した境界線を含む健康領域の情報を推定部30に出力し、推定部30に健康領域を設定する。
【0034】
なお、
図3では、ゼロ点交差率ZCRの縦軸およびハースト指数Hの横軸は、線形軸としたが、破線で示した境界線が指数関数やべき関数等で表される場合、境界線を直線で示すために対数軸にするのが好ましい。
【0035】
図4は、音声データの取得環境に応じたゼロ点交差率ZCRおよびハースト指数Hの分布の一例を示す。
図4では、
図3と同様に、縦軸はゼロ点交差率ZCRを示し、横軸はハースト指数Hを示す。また、
図4は、
図3に示したゼロ点交差率ZCRおよびハースト指数Hの分布から設定部20により決定された境界線を破線で示す。
【0036】
図4は、例えば、携帯通信端末200が被験者PAの音声を11キロヘルツのサンプリング周波数でサンプリングした音声データを用いて算出されたゼロ点交差率ZCRおよびハースト指数Hの分布を黒色の三角で示す。一方、携帯通信端末200は、例えば、電話回線等を介して音声データを推定装置100に送信するために、11キロヘルツでサンプリングした被験者PAの音声データを、8キロヘルツのサンプリング周波数でダウンサンプリングする。
図4は、8キロヘルツにダウンサンプリングされた音声データを用いて算出されたゼロ点交差率ZCRおよびハースト指数Hの分布を白色の矩形で示す。
【0037】
図4に示すように、被験者PAのゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリングによる音質の劣化(ノイズの増加)による影響を受けている。すなわち、ダウンサンプリングされた音声データのゼロ点交差率ZCRは、ノイズが増加し、音声の音圧が基準圧力を横切る回数が増加するため、11キロヘルツでサンプリングされた音声データのゼロ点交差率ZCRと比べて大きな値を示す。一方、ダウンサンプリングされた音声のハースト指数Hは、ノイズが増加することにより音声データがホワイトノイズに近づくため、11キロヘルツでサンプリングされた音声データのハースト指数Hと比べて小さな値を示す。
【0038】
しかしながら、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリングによる影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。すなわち、
図4に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化に対して、互いの相関性を有しつつ破線で示した境界線に沿って変化する。このため、ダウンサンプリング等による音質の劣化は、被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域に含まれるか否かを判定する推定部30の動作に影響を与えない。すなわち、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等の音質の劣化に対してロバスト性を有する。そして、推定装置100は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者PAの健康状態を推定できる。
【0039】
図5は、
図1に示した推定装置100における推定処理の一例を示す。
図5に示した処理は、推定装置100の演算処理装置が推定装置100の記憶装置に記憶された推定プログラムを実行することにより実現される。すなわち、
図5に示した処理は、推定方法および推定プログラムの一実施形態を示す。
【0040】
ステップS100では、推定装置100は、設定部20により推定部30に健康領域が設定されているか否かを判定する。推定部30に健康領域が設定されている場合、推定装置100の処理は、ステップS140に移る。一方、推定部30に健康領域が設定されていない場合、推定装置100の処理は、ステップS110に移る。
【0041】
ステップS110では、算出部10は、うつ病等の病を患っているか否かの健康状態が既知である複数の人の音声データを推定装置100の記憶装置から読み出し、読み出した音声データからゼロ点交差率ZCRおよびハースト指数Hを人毎に算出する。
【0042】
次に、ステップS120では、設定部20は、ステップS110で算出された複数の人のゼロ点交差率ZCRおよびハースト指数Hの分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。設定部20は、うつ病等の病を患っている人の領域と、健康な人の健康領域とを分ける境界線を決定する。
【0043】
次に、ステップS130では、設定部20は、ステップS120で決定した境界線を含む健康領域の情報を推定部30に出力し、推定部30に健康領域を設定する。
【0044】
次に、ステップS140では、算出部10は、被験者PAが発話した音声データを携帯通信端末200から取得する。
【0045】
次に、ステップS150では、算出部10は、ステップS140で取得した音声データを用いて、被験者PAのゼロ点交差率ZCRおよびハースト指数Hを算出する。算出部10は、算出した被験者PAのゼロ点交差率およびハースト指数を推定部30に出力する。
【0046】
次に、ステップS160では、推定部30は、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hが、ステップS130で設定された健康領域内に位置するか否かを判定する。被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域内に位置する場合、推定装置100の処理は、ステップS170に移る。一方、被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域外に位置する場合、推定装置100の処理は、ステップS180に移る。
【0047】
ステップS170では、推定部30は、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域内に位置することから、被験者PAは健康であると推定する。推定部30は、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0048】
なお、推定部30は、例えば、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hの位置と、健康領域の境界線との間の距離に応じて、被験者PAの健康の度合いを推定してもよい。そして、推定部30は、推定した被験者PAの健康状態と健康の度合いとを示す情報を、携帯通信端末200に出力してもよい。
【0049】
ステップS180では、推定部30は、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域外に位置することから、被験者PAはうつ病等の病を患っていると推定する。推定部30は、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0050】
なお、推定部30は、例えば、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hの位置と、健康領域の境界線との間の距離に応じて、被験者PAにおけるうつ病等の病の度合いを推定してもよい。そして、推定部30は、推定した被験者PAの健康状態と病の度合いとを示す情報を、携帯通信端末200に出力してもよい。
【0051】
そして、推定装置100は、推定処理を終了する。推定装置100は、携帯通信端末200から被験者PAの音声データを受信する度に、ステップS100からステップS180の処理を繰り返し実行する。
【0052】
なお、
図5に示した処理において、健康領域の情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記憶装置に記憶されている場合、ステップS100からステップS130の処理は、省略されてもよい。
【0053】
以上、
図1から
図5に示した実施形態では、算出部10は、携帯通信端末200から取得した被験者PAの音声データを用いて、被験者PAのゼロ点交差率ZCRおよびハースト指数Hを算出する。推定部30は、算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hの位置と、設定部20により設定された健康領域との比較に基づいて被験者PAの健康状態を推定する。
【0054】
そして、
図4に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域に含まれるか否かを判定する推定部30の動作に影響を与えない。すなわち、推定装置100は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者PAの健康状態を推定できる。
【0055】
また、推定装置100は、感情が消失しているといわれるうつ病等を患っている被験者PAの音声データや、感情の推定が困難な長母音等を含む音声データ等からゼロ点交差率ZCRおよびハースト指数Hを求めることができる。このため、推定装置100は、音声のパラメータと感情状態との対応関係を示す情報を用いる従来と比べて、被験者PAの健康状態を精度良く推定できる。
【0056】
図6は、推定装置の別の実施形態を示す。
図1で説明した要素と同一または同様の機能を有する要素については、同一または同様の符号を付し、これらについては、詳細な説明を省略する。
【0057】
図6に示した推定装置100Aは、有線または無線を介して携帯通信端末200に接続される。なお、推定装置100Aは、ネットワークを介して携帯通信端末200に接続されてもよい。すなわち、推定装置100Aは、携帯通信端末200とともに推定システムとして動作してもよい。
【0058】
推定装置100Aは、CPU等の演算処理装置と、ハードディスク装置等の記憶装置とを有するコンピュータ装置等である。推定装置100Aは、例えば、演算処理装置が記憶装置に記憶された推定プログラムを実行することにより、算出部10、設定部20aおよび推定部30として機能する。なお、算出部10、設定部20aおよび推定部30は、ハードウェアにより実現されてもよい。
【0059】
また、推定装置100Aは、携帯通信端末200において実現されてもよい。すなわち、携帯通信端末200に含まれるCPUが、携帯通信端末200に含まれるメモリ等の記憶部に記憶された推定プログラムを実行することにより、携帯通信端末200は、算出部10、設定部20aおよび推定部30として機能してもよい。
【0060】
設定部20aは、例えば、式(3)に示される音声の波形モデルを用い、音声に含まれるノイズの割合に応じて変化するゼロ点交差率ZCRとハースト指数Hとの関係性に基づいて、健康領域の境界線を決定する。
x(t+1)=α×x(t)+scale×rand1×SIGN(rand2,β)×SIGN((x(t)−x(t−1)),0.0) …(3)
なお、x(t−1)、x(t)、x(t+1)は、時刻t−1、t、t+1にサンプリングされた音声データを示す。αは、音声データx(t)が過去の状態に依存する度合いを示す。例えば、αが0の場合、音声データx(t)は、過去の状態に依存することなく独立した値を示し、ホワイトノイズであることを示す。
【0061】
また、rand1、rand2は、0から1の間の一様乱数を示す。scaleは、rand1の一様乱数に応じて音声データx(t)の波形が変動する変動量を調整し、例えば、0.1や0.2等の値に設定される。SIGNは、式(4)に示す関数であり、音声データx(t)の変動を決定する。
【0063】
例えば、音声データx(t)は、p>qの場合、増加または減少する状態を維持し、p<qの場合、増加から減少または減少から増加に状態を変化させる。また、音声データx(t)は、p=qの場合、現在と同じ状態を維持し変化しない。βは、関数SIGNを介して、rand2の一様乱数に応じて音声データx(t)の変動を調整する。例えば、αが1且つβが0.5に設定される場合、音声データx(t)は、ブラウンノイズと同様の波形が再現される。なお、式(3)に示した音声の波形モデルは、一例であり、他の関数を用いて表されてもよい。
【0064】
設定部20aは、例えば、αが1に設定された式(3)の音声の波形モデルを用いて、βを0から1の間で変化させ、各βの値における音声データx(t)からゼロ点交差率ZCRおよびハースト指数Hを、算出部10と同様に算出する。そして、設定部20aは、算出した各βの値におけるゼロ点交差率ZCRとハースト指数Hとの分布に対して最小二乗法等の回帰分析の処理を実行する。設定部20aは、各βの値のゼロ点交差率ZCRとハースト指数Hとを通る直線を、境界線として決定する。式(3)に示した音声の波形モデルの場合、設定部20aにより決定された境界線は、ZCR=−0.299H+0.305で表され、波線で示した
図3の境界線と類似する直線となる。これにより、推定装置100Aは、健康領域の境界線を決定するために複数の人の音声データを取得することなく、容易に健康領域の境界線を決定できる。
【0065】
そして、設定部20aは、決定した境界線を含む健康領域の情報を推定部30に出力し、推定部30に健康領域を設定する。
【0066】
なお、健康領域の情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記憶装置に記憶されている場合、設定部20aは省略されてもよい。
【0067】
図7は、
図6に示した推定装置100Aにおける推定処理の一例を示す。なお、
図7に示したステップの処理のうち、
図5に示したステップと同一または同様の処理を示すものについては、同一のステップ番号を付す。
【0068】
図7に示した処理は、推定装置100Aの演算処理装置が推定装置100Aの記憶装置に記憶された推定プログラムを実行することにより実現される。すなわち、
図7に示した処理は、推定方法および推定プログラムの別の実施形態を示す。
【0069】
ステップS100では、推定装置100Aは、設定部20aにより推定部30に健康領域が設定されているか否かを判定する。推定部30に健康領域が設定されている場合、推定装置100Aの処理は、ステップS140に移る。一方、推定部30に健康領域が設定されていない場合、推定装置100Aの処理は、ステップS125に移る。
【0070】
ステップS125では、設定部20aは、αが1に設定された式(3)の音声の波形モデルを用いて、βを0から1の間で変化させ、各βの値における音声データx(t)からゼロ点交差率ZCRおよびハースト指数Hを算出する。そして、設定部20aは、算出した各βの値におけるゼロ点交差率ZCRとハースト指数Hとの分布に対して最小二乗法等の回帰分析の処理を実行し、各βの値のゼロ点交差率ZCRとハースト指数Hとを通る直線を境界線として決定する。
【0071】
次に、ステップS130では、設定部20aは、ステップS125で決定した境界線を含む健康領域の情報を推定部30に出力し、推定部30に健康領域を設定する。
【0072】
次に、ステップS140では、算出部10は、被験者PAが発話した音声データを携帯通信端末200から取得する。
【0073】
次に、ステップS150では、算出部10は、ステップS140で取得した音声データを用いて、被験者PAのゼロ点交差率ZCRおよびハースト指数Hを算出する。算出部10は、算出した被験者PAのゼロ点交差率およびハースト指数を推定部30に出力する。
【0074】
次に、ステップS160では、推定部30は、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hが、ステップS130で設定された健康領域内に位置するか否かを判定する。被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域内に位置する場合、推定装置100Aの処理は、ステップS170に移る。一方、被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域外に位置する場合、推定装置100Aの処理は、ステップS180に移る。
【0075】
ステップS170では、推定部30は、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域内に位置することから、被験者PAは健康であると推定する。推定部30は、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0076】
なお、推定部30は、例えば、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hの位置と、健康領域の境界線との間の距離に応じて、被験者PAの健康の度合いを推定してもよい。そして、推定部30は、推定した被験者PAの健康状態と健康の度合いとを示す情報を、携帯通信端末200に出力してもよい。
【0077】
ステップS180では、推定部30は、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域外に位置することから、被験者PAはうつ病等の病を患っていると推定する。推定部30は、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0078】
なお、推定部30は、例えば、ステップS150で算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hの位置と、健康領域の境界線との間の距離に応じて、被験者PAにおけるうつ病等の病の度合いを推定してもよい。そして、推定部30は、推定した被験者PAの健康状態と病の度合いとを示す情報を、携帯通信端末200に出力してもよい。
【0079】
そして、推定装置100Aは、推定処理を終了する。推定装置100Aは、携帯通信端末200から被験者PAの音声データを受信する度に、ステップS100からステップS180の処理を繰り返し実行する。
【0080】
なお、
図7に示した処理において、健康領域の情報が、予め推定装置100Aまたは外部のコンピュータ装置により決定され、推定装置100Aの記憶装置に記憶されている場合、ステップS100、ステップS125およびステップS130の処理は、省略されてもよい。
【0081】
以上、
図6および
図7に示した実施形態では、算出部10は、携帯通信端末200を介して取得した被験者PAの音声データを用いて、被験者PAのゼロ点交差率ZCRおよびハースト指数Hを算出する。推定部30は、算出された被験者PAのゼロ点交差率ZCRおよびハースト指数Hの位置と、設定部20により設定された健康領域との比較に基づいて被験者PAの健康状態を推定する。
【0082】
そして、
図4に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者PAのゼロ点交差率ZCRおよびハースト指数Hが健康領域に含まれるか否かを判定する推定部30の動作に影響を与えない。すなわち、推定装置100Aは、音声データの取得環境に拘わらず、従来と比べて精度良く被験者PAの健康状態を推定できる。
【0083】
また、推定装置100Aは、感情が消失しているといわれるうつ病等を患っている被験者PAの音声データや、感情の推定が困難な長母音等を含む音声データ等からゼロ点交差率ZCRおよびハースト指数Hを求めることができる。このため、推定装置100Aは、音声のパラメータと感情状態との対応関係を示す情報を用いる従来と比べて、被験者PAの健康状態を精度良く推定できる。
【0084】
図8は、推定装置の別の実施形態を示す。
図1で説明した要素と同一または同様の機能を有する要素については、同一または同様の符号を付し、これらについては、詳細な説明を省略する。
【0085】
図8に示した推定装置100Bは、有線または無線を介して携帯通信端末200に接続される。なお、推定装置100Bは、ネットワークを介して携帯通信端末200に接続されてもよい。すなわち、推定装置100Bは、携帯通信端末200とともに推定システムとして動作してもよい。
【0086】
推定装置100Bは、CPU等の演算処理装置と、ハードディスク装置等の記憶装置とを有するコンピュータ装置等である。推定装置100Bは、例えば、演算処理装置が記憶装置に記憶された推定プログラムを実行することにより、算出部10a、設定部20bおよび推定部30aとして機能する。なお、算出部10a、設定部20bおよび推定部30aは、ハードウェアにより実現されてもよい。
【0087】
また、推定装置100Bは、携帯通信端末200において実現されてもよい。すなわち、携帯通信端末200に含まれるCPUが、携帯通信端末200に含まれるメモリ等の記憶部に記憶された推定プログラムを実行することにより、携帯通信端末200は、算出部10a、設定部20bおよび推定部30aとして機能してもよい。
【0088】
算出部10aは、例えば、
図1に示した算出部10と同様に、携帯通信端末200を介して取得した被験者PAの音声データを用いて、512等のサンプル数のウィンドウWD毎にゼロ点交差率およびハースト指数を算出する。そして、算出部10aは、各ウィンドウWDで算出した被験者PAのゼロ点交差率およびハースト指数を、設定部20bおよび推定部30aに出力する。
【0089】
設定部20bは、算出部10aにより算出された被験者PAの各ウィンドウWDのゼロ点交差率およびハースト指数を用いて、推定部30aが被験者PAの健康状態を推定するために、うつ病等の病を患っていない健康な状態を示す健康領域を設定する。例えば、算出部10aは、うつ病等の病を患っているか否かの健康状態が既知である複数の人の音声データを推定装置100Bの記憶装置から読み出し、読み出した音声データを用いて、複数の人の各々のゼロ点交差率およびハースト指数をウィンドウWD毎に算出する。設定部20bは、各ウィンドウWDで算出されたゼロ点交差率およびハースト指数による分布に対する一次関数による最小二乗法等の回帰分析を、複数の人の各々について実行する。そして、設定部20bは、複数の人の各々における一次関数の傾きおよび切片の値を算出し、うつ病等を患っている人の音声領域と、うつ病等を患っていない健康な人の音声領域との境界を決定する。設定部20bは、決定した境界を含む健康領域を示す情報を推定部30aに出力する。設定部20bの動作については、
図9で説明する。
【0090】
なお、健康領域を示す情報が、推定装置100Bまたは外部のコンピュータ装置により予め決定され、推定装置100Bの記憶装置に記憶されている場合、設定部20bは省略されてもよい。
【0091】
推定部30aは、例えば、算出部10aにより算出された被験者PAの各ウィンドウWDで算出されたゼロ点交差率およびハースト指数の分布に対して、設定部20bと同様に、一次関数による最小二乗法等の回帰分析を実行する。そして、推定部30aは、被験者PAにおける一次関数の傾きおよび切片を算出する。推定部30aは、被験者PAの回帰分析の結果と設定部20bにより設定された健康領域とに基づいて、被験者PAにおける健康状態を推定する。推定部30aは、推定した健康状態を示す情報を携帯通信端末200に出力する。推定部30aの動作については、
図10で説明する。
【0092】
図9は、1人の音声データを用いてウィンドウWDの各々において算出されたゼロ点交差率ZCRおよびハースト指数Hの分布の一例を示す。
図9では、縦軸はゼロ点交差率ZCRを示し、横軸はハースト指数Hを示す。
【0093】
設定部20bは、
図9に示したゼロ点交差率ZCRおよびハースト指数Hの分布に対して、破線で示した一次関数ZCR=γH+εによる最小二乗法を実行し、傾きγおよび切片εを算出する。設定部20bは、例えば、複数の人の各々について算出した傾きγおよび切片εを用いて、うつ病を患っている人の音声と、健康な人の音声とを分類する境界を示す閾値を健康領域として決定する。設定部20bは、決定した閾値を含む健康領域の情報を推定部30aに出力し、推定部30aに健康領域を設定する。
【0094】
なお、
図9では、ゼロ点交差率ZCRの縦軸およびハースト指数Hの横軸は、線形軸としたが、破線で示した境界線が指数関数やべき関数等で表される場合、最小二乗法等の回帰分析を実行するために対数軸にするのが好ましい。
【0095】
図10は、
図8に示した設定部20bにより算出された健康な人の音声、軽症患者の音声および重症患者の音声それぞれの傾きγの分布の一例を示す。
図10では、縦軸は傾きγを示し、横軸は重症度を示す。なお、
図10に示した傾きγの分布は、51人から取得した68個の音声データを用いて生成されている。そして、51人のうち、14人は、うつ病等の病を患っている人であり、37人は、健康な人である。また、68個の音声データのうち、25個は、うつ病等の病を患っている人の音声データであり、43個は、健康な人の音声データである。すなわち、音声データには、同じ人から異なる日時に取得した音声データが含まれる。
【0096】
“軽症音声”および“重症音声”は、各音声データの取得時にうつ病等の病を患っている人に対して実施したハミルトンうつ病評価尺度(Hamilton Depression Rating Scale:HDRS)(以下、“HAMD”とも称される)のテストに基づいて分類される。例えば、音声取得時にHAMDの点数が13点以下であった人の音声データは、“軽症音声”に分類される。また、音声取得時にHAMDの点数が14点以上であった人の音声データは、“重症音声”に分類される。なお、健康な人の音声データは、“健康音声”に分類する。
【0097】
設定部20bは、例えば、
図10に示した分布を用いて、ROC(Receiver Operating Characteristic)曲線におけるAUC(Area Under the Curve)を算出し、感度と特異度との和が1.6以上を示す範囲内で、“健康音声”、“軽症音声”および“重症音声”の各々を分類する傾きγの閾値を適宜決定する。例えば、設定部20bは、“健康音声”と“軽症音声”とを分類する傾きγの閾値を−0.29に決定し、“軽症音声”と“重症音声”とを分類する傾きγの閾値を−0.37に決定する。すなわち、設定部20bは、傾きγの値が−0.29以上を示す範囲を健康領域と決定する。なお、“健康音声”と“軽症音声”との傾きγの閾値(−0.29)、および“軽症音声”と“重症音声”との傾きγの閾値(−0.37)は、t検定により0.0015および0.0005の値が得られ、互いに有意な差を有する。
【0098】
なお、傾きγと切片εとは、ZCR=γH+εで関係付けられることから、設定部20bは、“健康音声”と“軽症音声”との閾値、および“軽症音声”と“重症音声”との閾値を、切片εを用いて決定してもよい。
【0099】
また、推定部30aは、重症音声について、HAMDの点数が14点から18点の人の音声を“中等症音声”、19点から22点の人の音声を“重症音声”、および23点以上の人の音声を“最重症音声”と分類してもよい。
【0100】
そして、設定部20bは、傾きγの閾値として−0.29と−0.37とを推定部30aに設定する。推定部30aは、算出部10aにより各ウィンドウWDで算出された被験者PAのゼロ点交差率およびハースト指数の分布に対して、設定部20bと同様に、ZCR=γH+εの一次関数による最小二乗法を実行し、被験者PAの音声に対する傾きγおよび切片εを算出する。推定部30aは、求めた被験者PAの音声に対する傾きγと、設定部20bにより設定された閾値(−0.29および−0.37)とを比較して、被験者PAの健康状態として“健康音声”、“軽症音声”および“重症音声”のいずれかを推定する。
【0101】
図11は、
図8に示した推定装置100Bにおける推定処理の一例を示す。なお、
図11に示したステップの処理のうち、
図1に示したステップと同一または同様の処理を示すものについては、同一のステップ番号を付す。
【0102】
図11に示した処理は、推定装置100Bの演算処理装置が推定装置100Bの記憶装置に記憶された推定プログラムを実行することにより実現される。すなわち、
図11に示した処理は、推定方法および推定プログラムの別の実施形態を示す。
【0103】
ステップS100では、推定装置100Bは、設定部20bにより推定部30aに健康領域が設定されているか否かを判定する。推定部30aに健康領域が設定されている場合、推定装置100Bの処理は、ステップS140に移る。一方、推定部30aに健康領域が設定されていない場合、推定装置100Bの処理は、ステップS115に移る。
【0104】
ステップS115では、算出部10aは、うつ病を患っているか否かの健康状態が既知である複数の人の音声データを推定装置100の記憶装置から読み出す。算出部10aは、読み出した音声データを用いて、複数の人の各々のゼロ点交差率ZCRおよびハースト指数HをウィンドウWD毎に算出する。
【0105】
次に、ステップS127では、設定部20bは、ステップS115で算出された各ウィンドウWDのゼロ点交差率ZCRおよびハースト指数Hの分布に対する一次関数ZCR=γH+εによる最小二乗法を、複数の人の音声各々について実行する。設定部20bは、複数の人の音声各々における傾きγおよび切片εを算出する。設定部20bは、例えば、“健康音声”と“軽症音声”とを分類する傾きγの閾値を−0.29に決定し、“軽症音声”と“重症音声”とを分類する傾きγの閾値を−0.37に決定する。
【0106】
次に、ステップS130では、設定部20bは、ステップS127で決定した傾きγの閾値を含む健康領域の情報を推定部30aに出力し、推定部30aに健康領域を設定する。
【0107】
次に、ステップS140では、算出部10aは、被験者PAが発話した音声データを携帯通信端末200から取得する。
【0108】
次に、ステップS155では、算出部10aは、ステップS140で取得した音声データを用いて、被験者PAのゼロ点交差率ZCRおよびハースト指数HをウィンドウWD毎に算出する。算出部10aは、各ウィンドウWDで算出した被験者PAのゼロ点交差率およびハースト指数を推定部30aに出力する。
【0109】
次に、ステップS157では、推定部30aは、ステップS155で各ウィンドウWDにおいて算出された被験者PAのゼロ点交差率およびハースト指数の分布に対して、一次関数ZCR=γH+εによる最小二乗法を実行する。推定部30aは、被験者PAの傾きγおよび切片εを算出する。
【0110】
次に、ステップS160では、推定部30aは、ステップS157で算出された被験者PAの傾きγが、ステップS130で設定された健康領域、すなわち−0.29以上の健康音声の範囲に含まれるか否かを判定する。被験者PAの傾きγが健康領域に含まれる場合、推定装置100Bの処理は、ステップS175に移る。一方、被験者PAの傾きγが健康領域に含まれない場合、推定装置100Bの処理は、ステップS165に移る。
【0111】
ステップS165では、推定部30aは、ステップS157で算出された被験者PAの傾きγが、ステップS130で設定された軽症音声の領域、すなわち−0.29より大きく、かつ−0.37以下の範囲内か否かを判定する。被験者PAの音声に対する傾きγが軽症音声の範囲内の場合、推定装置100Bの処理は、ステップS185に移る。一方、被験者PAの音声に対する傾きγが軽症音声の範囲に含まれない場合、推定装置100Bの処理は、ステップS190に移る。
【0112】
ステップS175では、推定部30aは、ステップS157で算出された被験者PAの音声に対する傾きγが健康領域に含まれることから、被験者PAは健康な人であると推定する。推定部30aは、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0113】
ステップS185では、推定部30aは、ステップS157で算出された被験者PAの音声に対する傾きγが軽症音声の範囲に含まれることから、被験者PAはうつ病の軽症患者であると推定する。推定部30は、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0114】
ステップS190では、推定部30aは、ステップS157で算出された被験者PAの音声に対する傾きγが健康音声および軽症音声の範囲にないことから、被験者PAはうつ病の重症患者であると推定する。推定部30は、推定した被験者PAの健康状態を示す情報を、携帯通信端末200に出力する。
【0115】
そして、推定装置100Bは、推定処理を終了する。推定装置100Bは、携帯通信端末200から被験者PAの音声データを受信する度に、ステップS100からステップS190の処理を繰り返し実行する。
【0116】
なお、
図11に示した処理において、健康領域の情報が、予め推定装置100Bまたは外部のコンピュータ装置により決定され、推定装置100Bの記憶装置に記憶されている場合、ステップS100、ステップS115、ステップS127およびステップS130の処理は、省略されてもよい。
【0117】
以上、
図8から
図11に示した実施形態では、算出部10aは、携帯通信端末200を介して取得した被験者PAの音声データを用いて、被験者PAのゼロ点交差率ZCRおよびハースト指数HをウィンドウWD毎に算出する。推定部30aは、算出部10aにより算出された被験者PAの各ウィンドウWDにおけるゼロ点交差率およびハースト指数の分布に対して、一次関数ZCR=γH+εによる最小二乗法等の回帰分析を実行し、被験者PAの音声に対する傾きγを算出する。推定部30aは、算出した被験者PAの音声に対する傾きγと、設定部20bにより設定された健康領域との比較に基づいて被験者PAの健康状態を推定する。
【0118】
そして、
図4に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者PAの音声に対する傾きγが健康領域に含まれるか否かを判定する推定部30aの動作に影響を与えない。すなわち、推定装置100Bは、音声データの取得環境に拘わらず、従来と比べて精度良く被験者PAの健康状態を推定できる。
【0119】
また、被験者PAの音声に対するゼロ点交差率およびハースト指数の分布に対する回帰分析から求まる傾きγは、うつ病における重症の度合いと関係付けられる。これにより、推定装置100Bは、被験者PAの音声データから被験者PAにおけるうつ病の重症の度合いを、従来と比べて精度良く推定できる。
【0120】
なお、推定装置100(100、100A、100B)は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、エンターテイメント、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、推定装置100は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。また、推定装置100は、金融与信管理システムや行動予測、企業、学校、行政機関、警察や軍事、情報収集活動等での情報分析、虚偽発見に繋がる心理分析、組織グループ管理へ応用されてもよい。また、推定装置100は、組織の構成員、研究者や従業員、管理者等の心の健康や行動予測を管理するシステム、住居やオフィス、飛行機や宇宙船といった環境を制御するシステム、あるいは家族や友人の心の状態や行動予測を知るための手段に適用されてもよい。また、推定装置100は、音楽や映画配信、一般的な情報検索、情報分析管理や情報処理、あるいは顧客感性嗜好マーケット分析等やこれらをネットワークやスタンドアローンで管理するシステム等へ適用されてもよい。
【0121】
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。