(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-18
(45)【発行日】2023-04-26
(54)【発明の名称】音声を用いて、精神・神経系疾患を推定する装置
(51)【国際特許分類】
A61B 10/00 20060101AFI20230419BHJP
【FI】
A61B10/00 H
(21)【出願番号】P 2021570086
(86)(22)【出願日】2021-01-07
(86)【国際出願番号】 JP2021000367
(87)【国際公開番号】W WO2021141085
(87)【国際公開日】2021-07-15
【審査請求日】2022-07-01
(31)【優先権主張番号】P 2020002175
(32)【優先日】2020-01-09
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】322006559
【氏名又は名称】PST株式会社
(74)【代理人】
【識別番号】100114775
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100191086
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】熊本 頼夫
(72)【発明者】
【氏名】大宮 康宏
【審査官】門田 宏
(56)【参考文献】
【文献】HIGUCHI, M. et al.,CLASSIFICATION OF BIPOLAR DISORDER, MAJOR DEPRESSIVE DISORDER, AND HEALTHY STATE USING VOICE,Asian Journal of Pharmaceutical and Clinical Research,2018年10月,Vol.11, No.15,pp.89-93,DOI:10.22159/ajpcr.2018.v11s3.30042
(58)【調査した分野】(Int.Cl.,DB名)
A61B 10/00
A61B 5/16
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴と
し、
前記推定装置が、
録音環境で有意差の出ない音響特徴量(A)、および
各々の疾患に関連する音響特徴量(B)、に基づき、
前記音響特徴量(A)と前記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
前記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
前記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、精神・神経系疾患の推定装置。
【請求項2】
推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、前記音響特徴量(A)と前記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
前記推定装置の算出部において、前記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
前記推定装置の推定部において、前記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を用いて、精神・神経系疾患を推定する装置に関する。更に詳しくは、疾患推定プログラムにおける環境に依存しない音響特徴量を抽出し、その音響特徴量を用いて精神・神経系疾患を推定する疾患推定装置および装置の作動方法に関する。
【背景技術】
【0002】
被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献1は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】Perceptions and impact of bipolar disorder in Japan: result of an Internet survey. Neuropsychiatric disease and treatment, 12: 2981-2987, 2016.10
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、利用者が自宅や医療施設等の室内で音声を入力する際、音声の取得場所によって、室内を構成する壁、床、天井等により反射音が発生するため音響障害が生じる。この音響障害により、入力された音声から抽出される音響特徴量が変質して疾患を推定する精度が落ちる恐れがあるが、特許文献1はこの問題に言及していない。
【0006】
また、特許文献1の装置は利用者の感情状態を推定するに止まり、精神系疾患または神経系疾患(以下、精神・神経系疾患と言う場合がある。)を推定するプログラムには言及していない。一般に、複数の種類の精神・神経系疾患の中から疾患を推定することは、有効なバイオマーカーが無い等の理由から難しい。
【0007】
例えば、大うつ病の診断は、米国精神医学会(APA)より刊行されたDSM-5マニュアルの診断基準によれば、症状のみで診断するほかなく、未だ有効なバイオマーカーが存在しない。
【0008】
さらに、双極性障害の場合、躁状態とうつ状態を繰り返すが、躁状態の時は患者が「調子が良い」と感じるために、それが疾患の症状とは気づかず、うつ状態の時に医療機関へ受診するため、「うつ病」と誤って診断されることも多い。躁状態が出現しない段階で医療機関へ受診した場合は、当然のごとく「うつ病」と診断される。
【0009】
例えば、インターネットを利用した調査により、1050の双極性障害の患者から回答を得た457名のうち、回答者の4分の1は最初に医療機関を訪れたときに双極性障害と判断されたが、65%の初期診断はうつ病/うつ症状であったという報告がなされている(非特許文献1参照)。大うつ病と双極性障害とでは、その原因や経過だけでなく治療法も異なることから、早い段階で判別することが求められている。
【0010】
そこで、本発明は、音声解析により複数の精神・神経系疾患を推定する装置であって、大うつ病と双極性障害とのいずれであるかを推定することが可能な装置を提供することを目的とする。更に、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明者は、上記課題を解決するために鋭意研究を重ねた結果、複数の精神・神経系疾患を推定する装置において、利用者の音声の取得場所による影響を受けない音響特徴量を抽出する手段を備える推定装置、推定装置の作動方法を見出し、本発明を完成させるに至った。
【0012】
すなわち、本発明は、以下の態様を包含するものである。
[1]音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴とする、精神・神経系疾患の推定装置。
[2]上記推定装置が、
録音環境で有意差の出ない音響特徴量(A)、および
各々の疾患に関連する音響特徴量(B)、に基づき、
上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
上記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
上記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、上記[1]に記載の精神・神経系疾患の推定装置。
[3]推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
上記推定装置の算出部において、上記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
上記推定装置の推定部において、上記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。
【発明の効果】
【0013】
本発明は、従来、抑うつ症状を示す初診の患者について判別が困難であった双極性障害と大うつ病とを、きわめて簡便な方法により判別を可能とする疾患の推定装置を提供することができる。
【図面の簡単な説明】
【0014】
【
図1】本願発明のハードウェア構成の一例を示す図である。
【
図3】本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を詳述したフローチャートである。
【
図5】Paired-t検定またはt検定において有意差がある音響特徴量の一例を示す図である。
【
図6】Paired-t検定またはt検定において有意差がない音響特徴量の一例を示す図である。
【
図8】被験者が読み上げる発話内容の一例を説明した図である。
【
図9】環境に依存しない音声特徴量の抽出の結果を示す表である。
【
図10】「いろはにほへと」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図11】「本日は晴天なり」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図12】「食欲があります」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図13】「おこりっぽいです」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図14】「あいうえおかきくけこ」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図15】「上を向いてあるこう」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図16】「がんばるぞー」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【
図17】7つの発話の音声を解析した結果の多数決により、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。
【発明を実施するための形態】
【0015】
以下、本発明の複数の精神・神経系疾患を推定する装置について詳細に説明するが、以下に記載する構成要件の説明は、本発明の一実施態様としての一例であり、これらの内容に特定されるものではない。なお、以降の説明において疾患の予測値を「メンタル値」と称する場合がある。
<1.プログラム>
【0016】
実施形態に係る推定装置200は、例えば
図1に示すような構成のコンピュータ100によって実現される。以下、例に挙げて説明する。
図1は、推定装置200の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ100は、CPU101、RAM102、ROM103、HDD104、通信インターフェイス(I/F)105、入出力インターフェイス(I/F)106、およびメディアインターフェイス(I/F)107を有する。
【0017】
CPU101は、ROM103またはHDD104に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM103は、コンピュータ100の起動時にCPU101によって実行されるブートプログラムや、コンピュータ100のハードウェアに依存するプログラム等を格納する。
【0018】
HDD104は、CPU101によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス105は、ネットワークNを介して他の機器からデータを受信してCPU101へ送り、CPU101が生成したデータを他の機器へ送信する。
【0019】
CPU101は、入出力インターフェイス106を介して、ディスプレイ等の出力装置、および、マイク等の音声の入力装置、キーボードやマウス等の入力装置を制御する。CPU101は、入出力インターフェイス106を介して、入力装置から音声データを取得する。また、CPU101は、生成したデータを入出力インターフェイス106を介して出力装置へ出力する。
【0020】
メディアインターフェイス107は、記録媒体108に格納されたプログラムまたはデータを読み取り、RAM102を介してCPU101に提供する。CPU101は、係るプログラムを、メディアインターフェイス107を介して記録媒体108からRAM102上にロードし、ロードしたプログラムを実行する。記録媒体108は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0021】
例えば、コンピュータ100が実施形態に係る推定装置200として機能する場合、コンピュータ100のCPU101は、RAM102上にロードされたプログラムを実行することにより、制御部の機能を実現する。また、HDD104には、記録部内のデータが格納される。コンピュータ100のCPU101は、これらのプログラムを記録媒体108から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。
<2.推定装置の構成>
【0022】
次に、実施形態に係る推定装置200の構成について
図2を用いて説明する。
図2に示すように、推定装置200は、ネットワークNを介して、利用者端末201と有線または無線により通信可能に接続される。なお、推定装置200は、他にも複数台の利用者端末201と接続されてもよい。
【0023】
推定装置200は、
図2に示すように、通信部202、第1の音響特徴量の抽出部204および第2の音響特徴量の抽出部205を有する音響特徴量の抽出部203、算出部206、推定部207、および記憶部208を備える。なお、音響特徴量の抽出部203、算出部206、および推定部207は演算処理装置(CPU)により実行されそれぞれが協働して制御部(不図示)として機能する。
【0024】
通信部202は、例えば、NIC(Network Interface Card)等によって実現される。通信部202は、ネットワークNと有線または無線で接続され、利用者端末201との間で情報の送受信を行う。
【0025】
制御部は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記録部207に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0026】
記録部208は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
利用者端末201は音声の入力部および推定結果の出力部を備える。推定装置200は、入力部から利用者の音声を取得し、利用者の音声をアナログ信号からデジタル信号の音声データへ変換して、通信部202を介して音声データを記録部208に格納する。
【0027】
入力部は、マイクロホン等の音声の取得部を介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数(例えば、11025ヘルツ等)でサンプリングすることでデジタル信号の音声データを生成する。入力部は、音声データを記録する記録部を推定装置200の記録部208とは別個に備えていてもよい。この場合、入力部はポータブルレコーダでもよい。入力部の記録部は、CD、DVD、USBメモリ、SDカード、ミニディスク等の記録媒体でもよい。
【0028】
出力部は、推定結果等のデータを受信する受信部と、当該データを表示する表示部とを備える。表示部は、推定結果等のデータを表示するディスプレイである。ディスプレイは、有機EL(Organic Electro-Luminescence)や液晶等であってもよい。
<<抽出部203>>
【0029】
抽出部203は、第1の音響特徴量の抽出部204および第2の音響特徴量の抽出部205を有する。ここで、第1の音響特徴量の抽出部204は、第1の音響特徴量のセットを作成する。第1の音響特徴量のセットは、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、対応のあるt検定(Paired t―test)による比較を行い、何れの施設間においても有意差がない音響特徴量のセットを、第1の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるt検定において、P値が、0.05を超える音響特徴量のセットであることが好ましく、0.1を超える音響特徴量のセットであることが更に好ましい。なお、P値の理論的な数値範囲は0~1であり、P値の有意水準は0.05に設定されるのが一般的である。
【0030】
第1の音響特徴量のセットは、記憶部208に格納される。第1の音響特徴量のセットは、後述する第2の音響特徴量のセットと一緒に用いてもよいし、第1の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。
【0031】
第2の音響特徴量の抽出部205は、第2の音響特徴量のセットを作成する。第2の音響特徴量のセットは、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、t検定(Unpaired t―test)による比較を行い、いずれの施設間においても有意差がない音響特徴量のセットを、第2の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるt検定において、P値が、0.05を超える音響特徴量のセットであることが好ましく、0.1を超える音響特徴量のセットであることが更に好ましい。
【0032】
第2の音響特徴量のセットは、記憶部208に格納される。第2の音響特徴量のセットは、第1の音響特徴量のセットと一緒に用いてもよいし、第2の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。
【0033】
P値の閾値設定の根拠について説明する。
図5は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Paired-t検定またはt検定において有意差がある場合の一例を示す図である。一方、
図6は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Paired-t検定またはt検定において有意差がない音響特徴量の一例を示す図である。健常者が異なる施設間で、同一の発話内容または異なる発話内容で、音声を発話して取得し、ある音響特徴量を比べた時に、
図5に示すように有意差が出るということは、その音声の属性の違いは環境だけなので、環境に依存する音響特徴量である疑いが強い。従って、音響特徴量のセットがP値で0.05を超える場合には、
図6に示すように有意差がなく、環境に依存しない音響特徴量であると選別することができる。
【0034】
さらに、音響特徴量のセットがP値で0.1を超える場合には、健常者が各施設をまわる途中で、ちょっとした身体の調子に影響されず、かつ環境に依存しないであろう音響特徴量であると選別することができる。また、音響特徴量のセットがP値で0.1を超える場合には、疾患の推定に用いられる少なくとも1つ以上の音響特徴量(後に特徴量F(a)として説明する。)に影響を与え難いため、疾患推定プログラム作成の観点からも好ましい。
【0035】
第1の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、施設の環境による差異を排除する目的で、施設間の音響特徴量の有意差を測定する。例えば、7つの施設で(それぞれ施設1~施設7と称する)採取された音声については、施設1と施設2、施設1と施設3のように7C2通りのペアを作りいずれのペアにおいても有意差が無い音響特徴量を抽出する(Paired t-test)。このPaired t-testは、対象となる施設すべてにおいて、一人または複数の健常者によって発話された音声を取得する。ここで健常者とは、解析対象である疾患に罹患していないものを言う。
【0036】
このPaired t-testに用いられる健常者は1人でもよいが、より信頼性を高めるには2人以上が好ましく、3人以上が更に好ましい。また、複数人の健常者により実施される場合は、同じ施設で取得された音声を複数人分まとめて処理してもよいし、個別に処理してもよい。個別に処理する場合は、このテストで調査されるペアの数は7C2×人数となる。
【0037】
また、各施設で健常者が複数のフレーズを発話して音声を取得した場合には、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、フレーズ毎に有意差が無い音響特徴量のセットが抽出される。
【0038】
次に第2の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、患者群(および健常者群)による差異を排除する目的で、患者群による音響特徴量の有意差を測定する。例えば、ある期間に複数の大うつ病患者の音声(大うつ病A群)を取得し、同じ期間に複数の双極性障害の患者の音声(双極性障害A群)を取得し、そして、別の期間に複数の大うつ病患者の音声(大うつ病B群)を取得し、同じ期間に複数の双極性障害の患者の音声(健常者B群)を取得した場合、t検定(Unpaired t―test)は、同じ疾患(または健常)における各群同士(大うつ病A群と大うつ病B群、双極性障害A群と双極性障害B群)の音響特徴量の有意差を測定する。また、各群の患者が複数のフレーズを発話して音声を取得した場合、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、フレーズ毎に有意差が無い音響特徴量のセットが抽出される。
【0039】
音響特徴量の抽出部203は、所望のP値を超える第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義する。なお、第3の音響特徴量のセットは、所望のP値を超える第1の音響特徴量のセットのみに基づいて音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義することもできる。
【0040】
第3の音響特徴量のセットは、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))の抽出の際に用いる。例えば、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量のセットと、上記第3の音響特徴量のセットの共通特徴量を、真の複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))として抽出する。
<<抽出部203での処理のフロー>>
【0041】
ここで、抽出部203における処理のフローに関して、
図3を参照しつつ説明する。作業を開始すると、ステップS1001において、抽出部203は、予め音声取得後に記憶部208内に格納された音声データの発話ラベリング作業を行う。次に、ステップS1002において、抽出部203は、発話ラベリング作業が完了した音声データを正規化する処理を行う。正規化処理を行うことにより前処理の工程が完了する。次に、ステップS1003において、抽出部203は、前処理が完了した音声データから音響特徴量を抽出する。
【0042】
次に、ステップS1004Aにおいて、抽出部203の第1の音響特徴量の抽出部204は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声から作成された音響特徴量に関して、対応のあるt検定(Paired t―test)による比較を行う。次に、ステップS1005Aにおいて、第1の音響特徴量の抽出部204は、所望のP値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第1の音響特徴量のセットとして定義する。
【0043】
一方、ステップS1004Bでは、抽出部203の第2の音響特徴量の抽出部205は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声から作成された音響特徴量に関して、t検定(Unpaired t―test)による比較を行う。次に、ステップS1005Bにおいて、第2の音響特徴量の抽出部205は、所望のP値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第2の音響特徴量のセットとして定義する。
【0044】
次に、ステップS1006において、音響特徴量の抽出部203は、所望のP値を超える第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義して、作業を終了する。なお、第3の音響特徴量のセットを、所望のP値を超える第1の音響特徴量のセットのみに基づいて第3の音響特徴量のセットとして定義する場合には、ステップS1006を省略することができる。
【0045】
以上のような処理を行うことにより、音声の取得場所による影響を受けない第3の音響特徴量のセットを、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))と組合せて、より精度の高い疾患の推定を行うことができる。
<<算出部206・推定部207>>
【0046】
算出部206は、後述する疾患の推論モデルに基づき、少なくとも1つの音響特徴量の組合せに基づき、複数の疾患の予測値を算出する。推定部207は、疾患の予測値を入力として複数の精神・神経系疾患を推定する。算出部206、推定部207については後で詳述する。
<<疾患の予測値の算出>>
【0047】
疾患の予測値の算出の概略を説明する。算出部206では、被験者の音声データから、複数の音響特徴量を抽出する段階を経る。音響特徴量は、患者の音声データから抽出される。音響特徴量は、音が伝わる際の特徴を特徴量化したものである。
【0048】
なお、ここからは、疾患を推定するためのプログラムの説明に入るが、前述した第1ないし第3の音響特徴量のセットと便宜的に区別して音響特徴量の説明をする必要があるため、「音響特徴量」を「音響パラメータ」と称して説明する。但し、本願明細書において、本質的には音響特徴量と音響パラメータは同義であり、どちらも推論装置の入力として用いられ、エンティティの持つ特性を表現する列、程度の意味を有する。
【0049】
疾患の推定装置に使用される音響パラメータには、第1の音響パラメータと第2の音響パラメータがある。第1の音響パラメータは、特定の疾患を推定すべき被験者の音声から抽出した音響のパラメータである。第2の音響パラメータは、予め記憶部208に格納されている音響のパラメータである。第2の音響パラメータは、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、または双極性障害の疾患を有する患者の音声データから抽出を行い、各音響パラメータと各疾患が予め紐付けされている。
【0050】
本願発明で使用する音響パラメータには、以下のような項目がある。
1) 音量のエンベロープ(アタックタイム、ディケイタイム、サステインレベル、リリースタイム)
2) 波形の変動情報(Shimmer, Jitter)
3) ゼロ点交差率
4) ハースト指数
5) VOT(Voice Onset Time)
6) メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
7) 周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
8) メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
9) メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
10) 周波数スペクトラム90%ロールオフの発話内時間変化における2次回帰近似に対する二乗誤差
11) 周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差
その他、ピッチレート、有声音である確率、任意範囲の周波数のパワー、音階、話速(一定時間におけるモーラ数)、ポーズ・間、音量などが挙げられる。
【0051】
推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。推論モデルには、線形モデルによる回帰、線形回帰、リッジ回帰、Lasso、ロジスティック回帰等の分類アルゴリズムを用いてもよい。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。
【0052】
推定プログラムの作成段階において、アルゴリズム作成者は、上記の第2の音響パラメータの項目の中から、変数f(n)として使用する任意の音響パラメータをより良い組合せとなるようにステップワイズ法により検討を行い、1つまたは複数選択する。次に、選択された任意の音響パラメータに対し係数を付し、1つまたは複数の音響パラメータを作成する。さらに、これらの音響パラメータを組合せて、パラメータF(a)を作成する。
【0053】
ステップワイズ法には変数増加法、変数減少法、変数増減法の3種類があるがいずれを用いてもよい。ステップワイズ法で用いられる回帰分析には、線形判別式やロジスティック回帰分析等の線形分類の処理が含まれる。変数f(n)およびそれらの係数、すなわち以下の式で示される式F(a)の係数xnは回帰係数と呼ばれ、関数f(n)に付与される重みである。
【0054】
回帰係数は、学習アルゴリズムの作成者が選択した後に、データベースに蓄積される疾患情報などから、推定精度を高めるための機械学習により品質の改善を行ってもよい。
【0055】
被験者の疾患の予測値は、例えば以下の式F(a)に基づいて1つ以上の音響パラメータから算出される。
【0056】
【0057】
ここで、f(n)は、上記の音響パラメータの項目(1)ないし(11)の中からいずれか1つ以上の第2の音響パラメータを任意に選択したものである。xnは疾患に固有の回帰係数である。f(n)、xnは、予め推定プログラムの記録装置120に記録されていてもよい。推定プログラムの機械学習の過程でパラメータF(a)の回帰係数を改善してもよい。
【0058】
図2の算出部206は、第2の音響パラメータの組合せに基づいて、健常者と疾患を有する被験者を区別する、あるいは疾患どうしを区別するためのパラメータを算出する。このパラメータから、基準範囲と、基準範囲から被験者の値がどの程度離れているのかを算出するためのスコアリングを行うことにより、被験者の疾患の予測値を算出する。
【0059】
図7は、ある一つの音響パラメータの強度が、疾患毎に異なっていることを示すイメージ図である。被験者は疾患Aのスコアが最も高いことを示している。従って、被験者の疾患Aに対する予測値は、他の疾患群と比較して高く算出される。また、例えば、強度50を閾値と設定することにより、疾患A、疾患D、疾患Eの群と、疾患B、疾患Cの群とに分類できる。
【0060】
図7は、1つの音響パラメータの強度を基に疾患の予測値を算出しているが、実際は一つの音響パラメータのみで疾患を分類できることは困難である。そのため、いくつかの音響パラメータの組み合わせにより求められるパラメータF(a)を算出して、疾患を分類しても良い。
【0061】
このパラメータF(a)を基に、ラベル付けされた被験者の音声について疾患の予測値を計算し、疾患ごとの予測値の分布を求める。これにより、各疾患を分類することができる。
【0062】
このようにして、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の6疾患を含む患者の音声、および健常者の音声から、それぞれの疾患に関連するパラメータF(a)を抽出し、それぞれの疾患の予測値を算出することができる。
【0063】
特に、本推定システムは、うつ症状を呈する初診の患者に適用することで、患者が未だ躁病エピソードを経験していないか、患者が躁病エピソードを経験した自覚がない場合にも、双極性障害の可能性を推定でき、初期の段階で双極性障害としての治療を行うことができる。双極性障害は、それとわかるまでの期間が長いことが多く、早い段階で大うつ病と双極性障害を判別することは社会的、臨床的意義が非常に大きい。
<<推定装置の処理>>
【0064】
図4は、
図2に示した推定装置200の推定処理の一例を示す。
図4は、推定装置200の演算処理装置(CPU)が推定装置200の記憶部208に記憶された推定プログラムを実行することにより実現される。
【0065】
処理を開始すると、ステップS2001において、制御部が音声データを取得する。音声データは、利用者端末201の入力部から取得してもよいし、一度記憶部208に格納された後に制御部が読みだしてもよい。次に、ステップS2002において、音響特徴量の抽出部203が音声データから第1の音響パラメータを抽出する。次に、ステップS2003において、第1の音響パラメータから環境に依存する音響特徴量を除外して、加工済の第1の音響パラメータを抽出する。例えば、第1の音響パラメータと抽出部203で得た第3の音響特徴量のセットを比較して、共通しない部分が環境に依存する音響特徴量と判断できる。
【0066】
次に、ステップS2004において、算出部206は、第2の音響パラメータから得たパラメータF(a)とステップS2003で得た加工済の第1の音響パラメータを比較して、各疾患の予測値を算出する。
【0067】
次に、ステップS2005において、推定部207は、特定の疾患とその他を区別するための個々の閾値を設けることにより、疾患の予測値を算出した複数の患者を、特定すべき対象とその他に判別して、処理を終了する。後述する実施形態では、閾値を超えた場合とそうでない場合とに分類して判定している。
<3.プログラムの利用分野>
【0068】
本発明の推定プログラムは、遠隔地からの音声であっても解析することが可能であるから、オンライン診療やオンラインカウンセリングの場面で用いることができる。精神・神経系疾患を診断する場合、医師は問診や面談によって、患者の表情、動き、会話の状況などを観察する。しかし、患者は、精神・神経系疾患に対する偏見を感じることがあるため、精神科の病院やクリニックに行くことが躊躇われることがある。
【0069】
オンラインによる診療やカウンセリングは、施設に出向かなくとも医師やカウンセラと面談可能である。そのため、精神神経系疾患以外の他の病気と比して、精神・神経系疾患はオンライン診療に非常に親和性が高い。
【0070】
医師、カウンセラ、および臨床心理士は、オンラインで患者(またはクライアント)と面談する場合に、本推定プログラムによる解析を行うことができる。これにより、非常に簡便に精神・神経系疾患に罹患しているかどうか、またその疾患の種類について推定することができる。なお、面談時には、MMSEやBDI、PHQ-9等、各種心理テストや認知機能テストを併せて行うことができる。
【0071】
この場合、患者側に、音声を送信できるコンピュータハードウエアのほか、面談用のモニター画面、音声収録用のマイクが必要である。
【0072】
患者の自宅にこれらの装置がない場合は、例えば、かかりつけの医院などに装置を備えることができる。患者はかかりつけの病院に通って、そこで装置を通して面談することができる。
【0073】
また、例えば、患者が身体疾患の治療を目的としてかかりつけの病院に通う場合、かかりつけの医師が診断して精神・神経系疾患の疑いがあると判断すれば、その場で音声を取得して本発明のプログラムで解析することが可能である。
【0074】
その他の場所でも、精神科医、神経内科医がオンライン診療可能な状態であれば、かかりつけの医師と精神科医、神経内科医がオンライン上で連携して診断を行うことが可能である。
【0075】
本発明の推定プログラムは、特定の疾患を推定するための感度を上げる(この場合、特異度は一般に下がる)ことにより、スクリーニング装置として利用することができる。
【0076】
会社や自治体などで行われている健康診断や、医療機関で行われている人間ドックなどの検査項目として利用することにより、これまで発見が困難で、簡便な検査法がなかった精神・神経科の疾患の早期発見に寄与することができる。
【0077】
例えば、眼底検査、視力検査、聴力検査などと同様に、一連の検査の一つとして音声の取得を行い、その場で、あるいは他の検査結果と一緒にプログラムによる推定結果を通知することができる。
【0078】
本発明の推定プログラムは、特別な装置を必要としないので、手軽にだれでも利用できる。一方で、利用場面が精神・神経系疾患に限定されるので、必ずしも利用頻度が高いものではない。そこで、高価な検査装置を備えた専門病院に本発明の推定装置一式を備えておき、かかりつけ医などが、対象患者が来院した時に、その専門病院に検査を依頼することができる。
【0079】
精神・神経系疾患で使用される装置としては、光トポグラフィ、心筋シンチグラフィ、脳血流シンチグラフィ、CT、MRI、脳波等が挙げられる。これらは、疾患の推定や除外診断に用いられるが、本発明の推定装置は極めて侵襲性が低いので、これら検査と併せて、あるいはこれら検査に先駆けて用いることができる。
【0080】
本発明の推定プログラムは、自宅でも簡便に利用できるので、診断後のモニタリング装置として利用することができる。例えば、気分障害群の疾患の場合、患者の疾患に応じて薬剤や心理療法が処置されるが、これら療法の効き具合を測定することができる。また、継続的に利用することにより、症状が安定しているか、再発の予兆が無いかなどを日々観察することができる。
【0081】
本発明の推定プログラムは、発話による音声を解析するものであるので、高齢者の見守り装置としての適用が可能である。
【0082】
一人暮らしの高齢者が、元気に過ごしているかどうかは近親者にとって気になるところである。電話やビデオ電話等の通信手段を用いた高齢者見守りシステムに、本発明の推定プログラムを実装することにより、生活反応を見るだけでなく、認知症やうつの傾向がないかどうかも測定することができ、一人暮らしであっても適宜対処することが可能となる。
【0083】
これらさまざまな実施形態において、音声の取得方法としては特に制限はないが、(1)対象者のほうから、電話やインターネットを通じで録音した音声を送付する方法、(2)検査者のほうから対象者へ電話やインターネットを通じでコンタクトし、会話をすることにより音声を取得する方法、(3)対象者の住居に音声取得装置を備えておき、対象者がその装置に録音する方法、(4)音声取得装置が定期的に自動起動し、対象者へ会話を行うことにより、対象者の音声を取得する方法等が挙げられる。
【0084】
音声を取得するにあたって、対象者がスムーズに発話できるように、推定装置に備えられたディスプレイに発話すべき文章を表示するか、またはスピーカーから発話すべき文章の音を再生するのが好ましい。
録音開始の機械音により録音が開始され、発話を終えたらスイッチにより録音を終了するなどして、文章毎に発話による音声を取得することができる。
<4.推定プログラムの作成>
<<複数の疾患と音声データとの関連付け作業-音声取得>>
【0085】
推定プログラム作成時の手順を記載する。複数の疾患と音声データとの付け作業を行うため、平成29年(2017年)12月25日から平成30年(2018年)5月30日の間に、以下の患者及び健常者の音声を取得した。
【0086】
・アルツハイマー型認知症患者の音声 20例
・レビー小体型認知症患者の音声 20例
・パーキンソン病の患者の音声 20例
・大うつ病患者の音声 20例(大うつ病A群)
・双極性障害患者の音声 16例(双極性障害A群)
・非定型うつ病患者の音声 19例
・健常者の音声 20例
【0087】
また、令和元年(2019年)6月28日から令和元年(2019年)10月31日の間に、以下の患者及び健常者の音声を取得した。
【0088】
・アルツハイマー型認知症患者の音声 37例
・レビー小体型認知症患者の音声 57例
・その他の認知症(血管性認知症、前頭側頭型認知症を含む)患者の音声 28例
・パーキンソン病の患者の音声 35例
・大うつ病患者の音声 57例(大うつ病B群)
・双極性障害患者の音声 34例(双極性障害B群)
・非定型うつ病患者の音声 30例
・その他のうつ病(気分変調症、気分循環症を含む)患者の音声 38例
・健常者の音声 60例+28例(4人が7つの異なる施設で音声を取得したもの:健常者B群)
【0089】
なお、これら患者は精神科、神経内科等、専門分野の医師により、DSM-5またはICD-10の基準によりそれぞれの疾患と認められた患者である。また、PHQ-9、MMSE等を行うことにより、他の精神・神経系疾患を合併していないことを医師が確認した。
【0090】
健常者は、PHQ-9、MMSE等を行うことにより、抑うつ症状や認知機能の低下が認められないことを確認した。
【0091】
音声取得には、オリンパス製ピンマイク、ローランド製ポータブルレコーダを用いた。音声データはSDカードに記録した。
【0092】
発話内容は、
図8に示す17の文章を被験者が、1~13まではそれぞれ2回ずつ、14~17までは1回ずつ読み上げた。
【0093】
音声を取得するに当たって、被験者には、精神神経系の病気の患者の声と病気との関係性を解析する研究に用いること、発話の内容、音声取得の方法を説明し、書面による同意書にサインしていただいた。また、音声を含む取得したデータは、個人を特定できない形式に記号化して管理した。
【0094】
被験者1人に付き、上記17種類の発話内容のうち、1~13までの発話(各2回で1例あたり26発話)、14~17までの発話(各1回で1例あたり4発話)の合計30発話について、長いものは2つに分解し、また不鮮明なものは除外することにより、各疾患の患者および健常者の音声を得た。
<<環境に依存しない音声特徴量の抽出>>
【0095】
健常者B群の4人の健常者については、7つの異なる施設(病院の診察室、処置室)において音声を取得した。
【0096】
これらの音声の正規化処理を行った後に、音声解析を行って7440個の音声特徴量を抽出した。その特徴量に関し、フレーズ毎に対応のあるt検定(Paired t―test)による比較を行った。その結果、「いろはにほへと」では、いずれの施設間においても有意差がない(P>0.5)音声特徴量として486個を得た。また、同様にして「本日は晴天なり」では573個、「食欲があります」では543個、「おこりっぽいです」では727個、「あいうえおかきくけこ」では466個、「上を向いてあるこう」では536個、「がんばるぞー」では525個の、いずれの施設間においても有意差がない音声特徴量を得た。
【0097】
また、同じ特徴量に関し、双極性障害A群と双極性障害B群、及び大うつ病A群と大うつ病B群の音声についてt検定(Unpaired t―test)による比較を行った。また、双極性障害A群と大うつ病A群、及び双極性障害B群と大うつ病B群の音声についてt検定による比較を行った。その結果、「いろはにほへと」の発話による音声においては、いずれの同じ疾患群同士において有意差がなく(P>0.5)、且ついずれの異なる疾患群同士においては有意差がある(P<0.1)音声特徴量として50個を得た。
【0098】
また、同様にして、「本日は晴天なり」では60個、「食欲があります」では232個、「おこりっぽいです」では75個、「あいうえおかきくけこ」では59個、「上を向いてあるこう」では64個、「がんばるぞー」では105個の、いずれの施設間においても有意差がない音声特徴量を得た。
【0099】
そして、Paired t-test と Unpaired t-test の両方で選別された音声特徴量として、「いろはにほへと」では3個、「本日は晴天なり」では12個、「食欲があります」では23個、「おこりっぽいです」では6個、「あいうえおかきくけこ」では4個、「上を向いて歩こう」では7個、「がんばるぞー」では4個の音声特徴量を得た。これらを表に纏めたものを
図9に示す。
<<推定プログラム1の作成(機械学習)>>
【0100】
次に、学習データとして、大うつ病患者15人、および双極性障害患者15人の「いろはにほへと」と発話した音声を用い、また3個の環境に依存しない音声特徴量(Paired t-testとUnpaired t-testのいずれにおいて有意差がない音声特徴量)を用いて、大うつ病と双極性障害とのいずれであるかを推定するための特徴量F(a)に基づく推定プログラム1を作成した。
<<推定プログラム1による疾患の推定>>
【0101】
検証データとして、前記学習データとして用いていない大うつ病患者30名、双極性障害患者16名の音声を用いた。結果(Youden Index における混同行列;以下同様)を
図10に示す。
<<推定プログラム2>>
【0102】
次に、「本日は晴天なり」と発話した音声を用い、また、前記23個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム2を作成し、検証した。結果を
図11に示す。
<<推定プログラム3>>
【0103】
次に、「食欲があります」と発話した音声を用い、また、前記3個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム3を作成し、検証した。結果を
図12に示す。
<<推定プログラム4>>
【0104】
次に、「おこりっぽいです」と発話した音声を用い、また、前記6個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム4を作成し、検証した。結果を
図13に示す。
<<推定プログラム5>>
【0105】
次に、「あいうえおかきくけこ」と発話した音声を用い、また、前記4個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム5を作成し、検証した。結果を
図14に示す。
<<推定プログラム6>>
【0106】
次に、「上を向いて歩こう」と発話した音声を用い、また、前記7個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム6を作成し、検証した。結果を
図15に示す。
<<推定プログラム7>>
【0107】
次に、「がんばるぞー」と発話した音声を用い、また、前記4個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム7を作成し、検証した。結果を
図16に示す。
<<推定プログラム8>>
【0108】
推定プログラム1~7の7つの推定プログラムを用いて、それぞれ対応する発話により大うつ病または双極性障害のいずれかを判定した。そして7つの判定の多数決により最終的に各人の推定結果とした。結果を
図17に示す。
【0109】
以上のように、本発明の推定システムは、被験者が大うつ病であるか、双極性障害であるかを推定することができる。
【0110】
発話による音声から音響特徴量を抽出する方法としては、市販の特徴量抽出プログラムを用いることができる。具体的には例えば、openSMILE等が挙げられる。
【0111】
なお、推定装置200は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、装置200は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。
【0112】
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態例の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
【産業上の利用可能性】
【0113】
被験者が発話する音声を推定し、被験者が患っている病気を判別・推定し、病気の重症化を予防し、また病気の的確な判別に基づいて患者が適切な治療をうけることを可能にする推定システム、推定プログラムおよび推定方法を提供することができる。
【0114】
本出願は、2020年1月9日に出願された日本出願である特願2020-2175号に基づく優先権を主張し、当該日本出願に記載された全ての記載内容を援用するものである。
【符号の説明】
【0115】
203 抽出部
206 算出部
207 推定部