(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023036486
(43)【公開日】2023-03-14
(54)【発明の名称】構音異常検出方法、構音異常検出装置、及びプログラム
(51)【国際特許分類】
A61B 10/00 20060101AFI20230307BHJP
A61B 5/00 20060101ALI20230307BHJP
G10L 25/18 20130101ALI20230307BHJP
G10L 25/30 20130101ALI20230307BHJP
G10L 25/66 20130101ALI20230307BHJP
【FI】
A61B10/00 K
A61B5/00 G
G10L25/18
G10L25/30
G10L25/66
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021143569
(22)【出願日】2021-09-02
(71)【出願人】
【識別番号】000005821
【氏名又は名称】パナソニックホールディングス株式会社
(71)【出願人】
【識別番号】504177284
【氏名又は名称】国立大学法人滋賀医科大学
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(72)【発明者】
【氏名】釜井 孝浩
(72)【発明者】
【氏名】櫻井 朗穂
(72)【発明者】
【氏名】大毛 勝統
(72)【発明者】
【氏名】川見 員令
(72)【発明者】
【氏名】高畑 翔吾
(72)【発明者】
【氏名】長尾 青空
【テーマコード(参考)】
4C117
【Fターム(参考)】
4C117XB09
4C117XE28
4C117XJ13
(57)【要約】
【課題】被験者に負担をかけることなく被験者の構音異常の有無を検出しやすくすること。
【解決手段】構音異常検出方法は、取得ステップ(S3)と、検出ステップ(S5)と、を含む。取得ステップ(S3)では、被験者の発する音声に関する音声情報を取得する。検出ステップ(S5)では、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、取得ステップ(S3)で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。
【選択図】
図13
【特許請求の範囲】
【請求項1】
被験者の発する音声に関する音声情報を取得する取得ステップと、
音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する検出ステップと、を含む、
構音異常検出方法。
【請求項2】
前記音声情報は、前記被験者が舌を所定のパターンで動かすことで発せられる特定音を含む、
請求項1に記載の構音異常検出方法。
【請求項3】
前記特定音は、弾音である、
請求項2に記載の構音異常検出方法。
【請求項4】
前記音声情報は、前記特定音と破裂音とが連続するフレーズを含む、
請求項2又は3に記載の構音異常検出方法。
【請求項5】
前記音声情報は、前記フレーズを複数含んでおり、
前記取得ステップで取得した前記音声情報から前記複数のフレーズを区分する区分ステップを更に含み、
前記検出ステップでは、前記区分ステップで区分された前記複数のフレーズの各々が前記検出モデルに入力される、
請求項4に記載の構音異常検出方法。
【請求項6】
前記区分ステップでは、前記音声情報としてのRMS(Root Mean Square)エンベロープ又はスペクトログラムに基づいて、前記複数のフレーズを区分する、
請求項5に記載の構音異常検出方法。
【請求項7】
前記区分ステップでは、前記複数のフレーズを含む音声を入力として前記複数のフレーズを区分するように機械学習された区分モデルに、前記取得ステップで取得した前記音声情報を入力することで、前記複数のフレーズを区分する、
請求項5又は6に記載の構音異常検出方法。
【請求項8】
前記検出モデルは、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダモデルであって、
前記検出ステップでは、前記検出モデルに入力される前記音声情報と、前記検出モデルから出力される音声情報との乖離度合いに基づいて、前記被験者の構音異常の有無を検出する、
請求項1~7のいずれか1項に記載の構音異常検出方法。
【請求項9】
前記検出ステップで検出された前記被験者の構音異常の有無に関する検出情報を出力する出力ステップを更に含む、
請求項1~8のいずれか1項に記載の構音異常検出方法。
【請求項10】
前記被験者の発する音声についてのサンプル音声を前記被験者に対して再生する再生ステップを更に含む、
請求項1~9のいずれか1項に記載の構音異常検出方法。
【請求項11】
1以上のプロセッサに、
請求項1~10のいずれか1項に記載の構音異常検出方法を実行させる、
プログラム。
【請求項12】
被験者の発する音声に関する音声情報を取得する取得部と、
音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得部で取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する検出部と、を備える、
構音異常検出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、被験者の構音異常を検出するための構音異常検出方法、構音異常検出装置、及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、先行脳卒中リスク指標の検出システムが開示されている。この検出システムでは、ビデオカメラは、脳卒中リスク指標を有するかについて評価すべき被検者の顔のビデオをキャプチャする。また、この検出システムでは、プロセッサは、ビデオカメラによってキャプチャされる被検者の顔のビデオに関連付けられる処理された画像データを分析する。そして、この検出システムでは、プロセッサは、キャプチャされた画像データが頸動脈狭窄の先行指標を提示するかどうかを判断する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい構音異常検出方法、構音異常検出装置、及びプログラムを提供する。
【課題を解決するための手段】
【0005】
本開示の一態様に係る構音異常検出方法は、取得ステップと、検出ステップと、を含む。前記取得ステップでは、被験者の発する音声に関する音声情報を取得する。前記検出ステップでは、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。
【発明の効果】
【0006】
本開示によれば、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【図面の簡単な説明】
【0007】
【
図1】
図1は、脳卒中患者の特性についての説明図である。
【
図2】
図2は、健常者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。
【
図3】
図3は、脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。
【
図4】
図4は、実施の形態に係る構音異常検出装置の構成の一例を示すブロック図である。
【
図5】
図5は、複数のフレーズを発声した健常者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。
【
図6】
図6は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。
【
図7】
図7は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの他の一例を示す図である。
【
図8】
図8は、複数のフレーズを発生した健常者及び脳卒中患者の音声波形から得られたRMSエンベロープの一例を示す図である。
【
図9】
図9は、実施の形態に係る構音異常検出装置の区分モデルについて、学習フェーズの一例を示す図である。
【
図10】
図10は、実施の形態に係る構音異常検出装置の区分モデルを用いた推論フェーズの一例を示す図である。
【
図11】
図11は、実施の形態に係る構音異常検出装置の検出モデルについて、学習フェーズの一例を示す図である。
【
図12】
図12は、実施の形態に係る構音異常検出装置の検出モデルを用いた推論フェーズの一例を示す図である。
【
図13】
図13は、実施の形態に係る構音異常検出装置の動作例を示すフローチャートである。
【
図14】
図14は、実施の形態に係る構音異常検出装置及び構音異常検出方法の概要の一例を示す図である。
【
図15】
図15は、実施の形態に係る構音異常検出装置の動作の具体例を示す図である。
【
図16】
図16は、実施の形態に係る構音異常検出装置の動作の他の具体例を示す図である。
【発明を実施するための形態】
【0008】
(本開示に至った知見)
従来、被験者の顔を撮像した画像を分析することにより脳卒中の発症のリスクを検知する技術が知られており、例えば特許文献1に開示されている。既に述べたように、特許文献1に開示されている検出システムでは、被験者の顔のビデオをビデオカメラで撮像する。そして、この検出システムでは、被験者の顔のビデオに関連付けられる処理された画像データを分析することにより、撮像された画像データが脳卒中の1つのリスク要因である頸動脈狭窄の先行指標を提示するかどうかを判断する。
【0009】
しかしながら、特許文献1に開示されている検出システムでは、被験者の顔のビデオをビデオカメラで撮像しなければならず、カメラ等で撮像されることに抵抗を感じる被験者にとっては負担が大きくなりがちである、という課題がある。
【0010】
また、特許文献1に開示されている検出システムでは、被験者の顔を撮像した画像データを分析することから、画像データにおいて被験者の顔が適切な位置、又は適切な角度にあることが重要となる。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合、適切な画像データを得られるように被験者が幾らか努力しなければならず、被験者にとっては負担が大きくなりがちである、という課題がある。
【0011】
そこで、本願の発明者は、上記課題を鑑み鋭意検討した結果、被験者の発する音声から被験者の構音異常の有無、言い換えれば被験者が口から言葉を発する際に、その言葉の要素である音韻を正しく発音できるか否かを検出可能であることを見い出した。後述するように、被験者の構音異常の有無は、被験者の脳卒中の発症の予兆の有無を示し得る。このため、被験者が音声を発するだけで、被験者の脳卒中の発症の予兆の有無を検出することができる。
【0012】
したがって、本開示によれば、被験者の顔を撮像する場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無、更には被験者の脳卒中の発症の予兆の有無を検出しやすい構音異常検出方法、構音異常検出装置、及びプログラムを提供することができる。
【0013】
(本開示の概要)
本開示の一態様の概要は、以下の通りである。
【0014】
本開示の一態様に係る構音異常検出方法は、取得ステップと、検出ステップと、を含む。前記取得ステップでは、被験者の発する音声に関する音声情報を取得する。前記検出ステップでは、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。
【0015】
これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【0016】
例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記被験者が舌を所定のパターンで動かすことで発せられる特定音を含んでいてもよい。
【0017】
これによれば、構音異常の有無の指標となり得る舌の麻痺度合いを検出しやすいことから、音声情報が特定音を含まない場合と比較して、被験者の構音異常の有無を検出しやすくなる、という利点がある。
【0018】
例えば、本開示の一態様に係る構音異常検出方法では、前記特定音は、弾音であってもよい。
【0019】
これによれば、舌が麻痺している場合に発しにくい弾音を特定音に含めることで、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
【0020】
例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記特定音と破裂音とが連続するフレーズを含んでいてもよい。
【0021】
これによれば、被験者の発する音声において位置を特定しやすい破裂音を特定音に連続させることで、被験者の発する音声における特定音の位置を特定しやすくなることから、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
【0022】
例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記フレーズを複数含んでいてもよい。また、本開示の一態様に係る構音異常検出方法は、前記取得ステップで取得した前記音声情報から前記複数のフレーズを区分する区分ステップを更に含んでいてもよい。また、前記検出ステップでは、前記区分ステップで区分された前記複数のフレーズの各々が前記検出モデルに入力されてもよい。
【0023】
これによれば、単一のフレーズから被験者の構音異常の有無を検出する場合と比較して、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
【0024】
例えば、本開示の一態様に係る構音異常検出方法において、前記区分ステップでは、前記音声情報としてのRMS(Root Mean Square)エンベロープ又はスペクトログラムに基づいて、前記複数のフレーズを区分してもよい。
【0025】
これによれば、RMSエンベロープ又はスペクトログラムに複数のフレーズを区別し得る特徴が現れやすいことから、複数のフレーズを区分する精度の向上が期待できる、という利点がある。
【0026】
例えば、本開示の一態様に係る構音異常検出方法において、前記区分ステップでは、前記複数のフレーズを含む音声を入力として前記複数のフレーズを区分するように機械学習された区分モデルに、前記取得ステップで取得した前記音声情報を入力することで、前記複数のフレーズを区分してもよい。
【0027】
これによれば、区分モデルを用いずに複数のフレーズを区分する場合と比較して、複数のフレーズを区分する精度の向上が期待できる、という利点がある。なお、学習用データが大量である場合、区分モデルは、深層ニューラルネットワーク(Deep Neural Network:DNN)モデルである方が精度の向上が期待できる。また、学習用データが少ない場合、区分モデルは、音声情報としてRMSエンベロープを用いた方が精度の向上が期待できる。
【0028】
例えば、本開示の一態様に係る構音異常検出方法では、前記検出モデルは、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダであってもよい。また、前記検出ステップでは、前記検出モデルに入力される前記音声情報と、前記検出モデルから出力される音声情報との乖離度合いに基づいて、前記被験者の構音異常の有無を検出してもよい。
【0029】
これによれば、健常者よりも少数である構音異常を有する患者の音声を用いて検出モデルを学習する場合と比較して多数の学習用データを準備しやすいので、検出モデルを学習しやすい、という利点がある。
【0030】
例えば、本開示の一態様に係る構音異常検出方法は、前記検出ステップで検出された前記被験者の構音異常の有無に関する検出情報を出力する出力ステップを更に含んでいてもよい。
【0031】
これによれば、例えば検出情報を被験者に対して出力することで、自身が構音異常を有しているか否かを被験者が把握することができる、という利点がある。
【0032】
例えば、本開示の一態様に係る構音異常検出方法は、前記取得ステップの前に、前記被験者の発する音声についてのサンプル音声を前記被験者に対して再生する再生ステップを更に含んでいてもよい。
【0033】
これによれば、被験者がサンプル音声を再現すべく発声を試みることができるため、文字列を表示して被験者に発声を促す場合と比較して、被験者の音声を取得しやすい、という利点がある。また、これによれば、被験者がサンプル音声を再現して発声できているか否かを含めて被験者の構音異常の有無を検出することが可能になり、被験者の構音異常の有無を検出する精度の向上が期待できる、という利点がある。
【0034】
また、本開示の一態様に係るプログラムは、1以上のプロセッサに、上記の構音異常検出方法を実行させる。
【0035】
これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【0036】
また、本開示の一態様に係る構音異常検出装置は、取得部と、検出部と、を備える。前記取得部は、被験者の発する音声に関する音声情報を取得する。前記検出部は、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得部で取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。
【0037】
これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【0038】
なお、これらの包括的又は具体的な態様は、システム、方法、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、方法、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【0039】
以下、本開示の実施の形態について図面を参照しながら具体的に説明する。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
【0040】
(実施の形態)
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0041】
[1.概要]
まず、実施の形態に係る構音異常検出装置、及び構音異常検出方法を説明するに当たり、被験者の発する音声に被験者の構音異常の有無を検出し得る特徴が現れるという知見についての概要を説明する。
図1は、脳卒中患者の特性についての説明図である。ここでいう脳卒中は、例えばラクナ脳梗塞、若しくはアテローム血栓性脳梗塞等の脳梗塞、又は脳出血等を含み得る。
図1は、計数十名の脳卒中患者が発した計百数十の音声について言語聴覚士(Speech-Language-Hearing Therapist)が聞き取りにより異常発生部位の推定を行った結果を示している。
図1において、横軸は口腔に麻痺が発生していると診断された箇所、縦軸は被験者の数を表している。
図1に示すように、脳卒中患者の口腔には麻痺が発生している場合が多い。特に、脳卒中患者には、前舌、中舌、又は奥舌といった舌の麻痺が顕著に発生している、と考えられる。
【0042】
ここで、被験者の口腔に発生している麻痺の箇所を特定するために、被験者に検査フレーズを発声させ、その音声を言語聴覚士が聞き取ることが行われている。検査フレーズとしては、例えば「瑠璃も玻璃も照らせば光る」等の被験者の口腔に麻痺が発生している場合には発声しにくいフレーズが採用される。
【0043】
図2は、健常者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。
図3は、脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。
【0044】
図2及び
図3の各々において、上側の領域A1が音声波形を表しており、下側の領域A2がスペクトログラムを表している。ここでいうスペクトログラムは、被験者の音声の周波数スペクトルを経時的に表したものである。また、
図2及び
図3に示す音声波形は、いずれも被験者に「瑠璃も玻璃も照らせば光る」という検査フレーズを発声させ、その音声を収音することで得た波形である。
【0045】
「瑠璃も玻璃も照らせば光る」という検査フレーズには、日本語のラ行の子音が含まれており、このような子音は弾音である。ここでいう弾音は、口腔において調音器官によって瞬間的な接触を作ることで作り出される子音、例えば非常に短い時間だけ舌が硬口蓋に触れることで作り出される音である。つまり、弾音は、被験者が舌を所定のパターンで動かすことで発せられる特定音である。このような特定音は、舌が麻痺していれば正しく発音することは困難である。
【0046】
図2及び
図3において、白抜きの矢印は、検査フレーズにおいてラ行の子音、つまり弾音が発音される位置を示している。
図2に示すように、健常者の音声波形から得られるメルスペクトログラムにおいては、弾音が発音される位置において、縦方向に暗い線状の領域B1が出現している。このように、弾音が正しく発音された場合、ごく短時間(例えば、20ms以下)のパワーの低下が発生する。
【0047】
一方、
図3に示すように、脳卒中患者の音声波形から得られるスペクトログラムにおいては、弾音が発音される位置に、ごく短時間のパワーの低下が発生しない、つまり縦方向に暗い線状の領域B1が出現しないことがある(領域C1参照)。このように、弾音が発音されるべき位置において弾音が正しく発音されていないのは、脳卒中患者の舌に麻痺が発生しているために、舌が硬口蓋に接触していないことが原因と考えられる。なお、パワーの低下が比較的弱い場合、又はパワーの低下が起こっているがその時間が比較的長い場合においても、弾音が正しく発音されていないと言える。
【0048】
上述のように、被験者の発する音声には、被験者の舌に麻痺が発生しているか否か、言い換えれば被験者の構音異常の有無を検出し得る特徴が現れる。したがって、被験者の発する音声に現れる特徴を分析、例えば弾音が正しく発音されているか否かを分析することにより、被験者の構音異常の有無、更には被験者の脳卒中の発症の予兆の有無を検出することが可能である。
【0049】
[2.構成]
次に、実施の形態に係る構音異常検出装置の構成、及び構音異常検出方法について詳細に説明する。
図4は、実施の形態に係る構音異常検出装置100の構成の一例を示すブロック図である。実施の形態では、構音異常検出装置100は、スマートフォン、又はタブレット端末等の情報端末に搭載されている。もちろん、構音異常検出装置100は、デスクトップ型又はラップトップ型のパーソナルコンピュータに搭載されていてもよい。なお、構音異常検出装置100は、「構音異常検出システム100」とも呼ばれる。
【0050】
図4に示すように、構音異常検出装置100は、取得部11と、区分部12と、検出部13と、出力部14と、再生部15と、記憶部16と、を備えている。また、記憶部16には、区分モデル17と、検出モデル18と、が格納されている。実施の形態では、取得部11、区分部12、検出部13、出力部14、及び再生部15は、いずれも情報端末又はパーソナルコンピュータに搭載されたプロセッサが所定のプログラムを実行することにより実現される。
【0051】
取得部11は、被験者の発する音声に関する音声情報を取得する。取得部11は、構音異常検出方法における取得ステップの実行主体である。取得部11は、例えば情報端末に搭載されたマイクロフォンにより被験者の発する音声を収音し、収音した音声を電気信号に変換することで音声情報を取得する。ここで、音声情報は、被験者の発する音声の音声波形、又は音声波形に対して適宜の情報処理を実行することで得られる情報を含み得る。一例として、音声情報は、音声波形から得られるRMS(Root Mean Square:二乗平均平方根)エンベロープ、又は音声波形のスペクトログラム(メルスペクトログラムを含む)を含み得る。
【0052】
実施の形態では、被験者に複数のフレーズを含む検査フレーズの発声を促すことにより、取得部11は、複数のフレーズを含む音声情報を取得する。ここでいうフレーズは、例えば弾音等の被験者が舌を所定のパターンで動かすことで発せられる特定音と、破裂音とが連続するフレーズである。実施の形態では、フレーズは「デレ」である。つまり、実施の形態では、被験者に上記フレーズを複数回繰り返す「デレデレデレ…」という検査フレーズの発声を促す。
【0053】
このように、実施の形態では、音声情報は、被験者が舌を所定のパターンで動かすことで発せられる特定音を含む。また、実施の形態では、特定音は、弾音である。また、実施の形態では、音声情報は、特定音と破裂音とが連続するフレーズを含む。さらには、実施の形態では、音声情報は、フレーズを複数含んでいる。
【0054】
以下、検査フレーズとして「デレデレデレ…」を採用した経緯について説明する。上述のように、検査フレーズに例えば弾音等の特定音が含まれていれば、被験者の発する音声から被験者の構音異常の有無を検出することが可能である。しかしながら、被験者が正しく特定音を発音したか否かを分析するためには、被験者が発する音声において特定音が発音されるべき位置を特定するのが好ましい。というのも、例えば脳卒中患者のように構音異常を有する被験者が検査フレーズを発声した場合、特定音が発音されるべき位置を把握していなければ、特定音を正しく発音できなかったのか、又はそもそも特定音を発音しようとしていなかったのかを判別できないからである。
【0055】
そこで、本願の発明者は、被験者が発する音声における位置を比較的特定しやすい破裂音と、特定音とが連続するフレーズを検査フレーズとして採用することを見い出した。破裂音は、両唇の間、舌先と上の歯茎の間、又は奥舌と軟口蓋との間等を閉じて呼気を止めた状態から、その閉鎖を急に破った時に発せられる音(子音)である。破裂音は、弾音と比較して舌が麻痺している場合でも発音が容易であり、かつ、発音時に一時的にパワーが低下することから、被験者が発する音声における位置を比較的特定しやすい音である。
【0056】
そして、被験者が発する音声における破裂音の位置が特定できれば、破裂音と連続する特定音の位置も特定することが可能である。実施の形態では、破裂音と特定音とが連続するフレーズとして「デレ」を採用している。
【0057】
また、検査フレーズとして単一のフレーズである「デレ」を採用するのではなく、複数のフレーズである「デレデレデレ…」を採用することで、被験者の構音異常の有無を検出する精度の更なる向上を図った。すなわち、単一のフレーズである「デレ」のみを被験者が発声した場合、例えば脳卒中患者のように構音異常を有する被験者が偶然にも特定音を正しく発音する場合もあり得るからである。これに対して、複数のフレーズである「デレデレデレ…」を被験者が発声した場合、少なくとも1以上のフレーズにおいて構音異常を有する被験者が特定音を正しく発音できない確率が高まるため、被験者の構音異常の有無を検出しやすくなることが期待できる。加えて、複数のフレーズを繰り返すことにより舌運動への要求が複雑となり、構音異常がより明確に現れやすくなる。
【0058】
図5は、複数のフレーズを発声した健常者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。
図6は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。
図7は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの他の一例を示す図である。
【0059】
図5~
図7の各々において、上側の領域A1が音声波形を表しており、下側の領域A2がスペクトログラムを表している。また、
図5~
図7に示す音声波形は、いずれも被験者に「デレデレデレ…」という検査フレーズを発声させ、その音声を収音することで得た波形である。
【0060】
図5~
図7の各々において、白抜きの矢印は、検査フレーズにおいて「レ」、つまり弾音が発音される位置を示している。
図5に示すように、健常者の音声波形から得られるスペクトログラムにおいては、弾音が発音される位置において弾音が正しく発音されているため、ごく短時間のパワーの低下を示す縦方向に暗い線状の領域B2が出現している。一方、
図6に示すように、脳卒中患者の音声波形から得られるスペクトログラムにおいては、例えば領域C2に示すように、弾音が発音されるべき位置において、ごく短時間のパワーの低下を示す縦方向に長い暗い線状の領域が現れておらず、弾音が正しく発音されていない。また、
図7に示す他の脳卒中患者の音声波形から得られるスペクトログラムにおいても、例えば領域C3に示すように、弾音が発音されるべき位置において、パワー低下が比較的長時間にわたって起こっており、やはり弾音が正しく発音されていない。
【0061】
また、構音異常の有無を検出し得る特徴は、音声波形から得られるスペクトログラムだけではなく、音声波形から得られるRMSエンベロープにも発現し得る。
図8は、複数のフレーズを発生した健常者及び脳卒中患者の音声波形から得られたRMSエンベロープの一例を示す図である。
図8の(a)は、健常者の音声波形から得られたRMSエンベロープを示す。一方、
図8の(b)、(c)、(d)は、いずれも脳卒中患者の音声波形から得られたRMSエンベロープを示す。
図8の(a)、(b)、(c)、(d)のRMSエンベロープは、いずれも被験者に「デレデレデレ…」という検査フレーズを発生させ、その音声を収音することで得られた音声波形に対して適宜の情報処理を実行して得ている。
【0062】
図8の(a)に示すように、健常者の音声波形から得られるRMSエンベロープにおいては、フレーズごとのエンベロープの形状が揃っており、かつ、フレーズごとの中央部において弾音を正しく発音することによるパワーの若干の低下が見られる。一方、
図8の(b)に示す脳卒中患者の音声波形から得られるRMSエンベロープにおいては、フレーズごとのエンベロープの形状が不揃いであり、かつ、フレーズごとの中央部において弾音を正しく発音できていないことによるパワーの急峻な低下が見られる。また、
図8の(c)に示す他の脳卒中患者の音声波形から得られるRMSエンベロープにおいても、同様にフレーズごとのエンベロープの形状が不揃いである。また、
図8の(d)に示す更に他の脳卒中患者の音声波形から得られるRMSエンベロープにおいては、同様にフレーズごとのエンベロープの形状が不揃いであり、かつ、フレーズの間隔も不揃いである。
【0063】
上述のように、検査フレーズとして「デレデレデレ…」を採用することにより、音声波形から得られるスペクトログラム及びRMSエンベロープのいずれにおいても、弾音が正しく発音されているか否かを示す特徴が現れやすくなっている。
【0064】
区分部12は、取得部11(取得ステップ)で取得した音声情報から複数のフレーズを区分する。区分部12は、構音異常検出方法における区分ステップの実行主体である。具体的には、被験者が発する検査フレーズは、上述のように「デレ」というフレーズを複数回繰り返した「デレデレデレ…」という音声であるため、複数のフレーズを含んでいる。区分部12は、この「デレデレデレ…」という複数のフレーズを、「デレ」というフレーズに1つずつ区分することにより、後述する検出部13で音声情報を取り扱いやすくしている。
【0065】
実施の形態では、区分部12(区分ステップ)は、音声情報としてのRMSエンベロープ又はスペクトログラム(ここでは、メルスペクトログラム)に基づいて、複数のフレーズを区分する。また、実施の形態では、区分部12(区分ステップ)は、区分モデル17に、取得部11(取得ステップ)で取得した音声情報を入力することで、複数のフレーズを区分する。区分モデル17は、複数のフレーズを含む音声を入力として複数のフレーズを区分するように機械学習された学習済みモデルである。
【0066】
具体的には、区分モデル17は、例えば深層ニューラルネットワーク(Deep Neural Network:DNN)モデルであって、シーケンスラベリングモデルである。区分モデル17は、複数のフレーズを含む音声波形から得られたRMSエンベロープ又はスペクトログラムを入力として、ラベルデータを出力する。ラベルデータは、フレームごとにフレーズに属するか否かを示す2値情報の集合である。例えば、音声波形から100フレーム分のRMSエンベロープ又はスペクトログラムを得ている場合、ラベルデータは、100フレーム分の2値情報の集合となる。
【0067】
区分部12は、区分モデル17から出力されるラベルデータに基づいて、区分情報を生成して出力する。例えば、ラベルデータが「11…100111…」であれば、「1」の連続するデータがフレーズを表し、「0」が隣り合うフレーズの区切りを表す。したがって、区分部12は、ラベルデータに基づいて、複数のフレーズの各々の開始位置及び終了位置を含む区分情報を生成する。
【0068】
以下、区分モデル17の学習フェーズの具体例について
図9を用いて説明する。
図9は、実施の形態に係る構音異常検出装置100の区分モデル17について、学習フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からRMSエンベロープ又はメルスペクトログラムを音声情報として取得する。
図9に示す例では、メルスペクトログラムの一例を図示している。
【0069】
音声波形から得られるRMSエンベロープは、次元数が「α」(α=1)、フレーム数が「p」(pは自然数)となる。また、音声波形から得られるメルスペクトログラムは、次元数が「β」(βは自然数であって、β>1)、フレーム数が「p」となる。ここでいう次元数は、周波数軸に沿ったパワーの分解能を示している。また、ここでいうフレーム数は、音声波形を単位時間ごと切り出すことで得られるフレームの数を示している。
【0070】
次に、取得部11が取得した音声情報を機械学習が未だ完了していない区分モデル17(以下、「未完了の区分モデル17」という)に入力する。これにより、未完了の区分モデル17は、ラベルデータを出力する。このラベルデータは、次元数が「1」、フレーム数が「p」となる。
【0071】
そして、未完了の区分モデル17が出力するラベルデータと、正解データとを損失関数(ここでは、多クラス交差エントロピー誤差(Categorical Cross Entropy Error)関数)に入力し、損失関数の出力が最小値となるように誤差逆伝播法(Backpropagation)を実行することで、未完了の区分モデル17を教師あり学習により機械学習させる。正解データは、健常者に検査フレーズを発声させることで得た音声波形から事前に作成されるラベルデータである。正解データは、未完了の区分モデル17が出力するラベルデータと同様に、次元数が「1」、フレーム数が「p」となる。
【0072】
以下、機械学習が完了した区分モデル17を用いた推論フェーズの具体例について
図10を用いて説明する。
図10は、実施の形態に係る構音異常検出装置100の区分モデル17を用いた推論フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からRMSエンベロープ又はメルスペクトログラムを音声情報として取得する。
図10に示す例では、メルスペクトログラムの一例を図示している。なお、RMSエンベロープ及びメルスペクトログラムのフレーム数は、学習フェーズと同様である。また、RMSエンベロープ及びメルスペクトログラムの次元数も、学習フェーズと同様である。
【0073】
次に、区分部12は、取得部11が取得した音声情報を区分モデル17に入力する。これにより、区分モデル17は、ラベルデータを出力する。そして、区分部12は、区分モデル17が出力したラベルデータに基づいて、複数のフレーズの各々の開始位置及び終了位置を含む区分情報を生成する。区分部12が生成した区分情報は、後述する検出部13にて用いられる。
【0074】
検出部13は、検出モデル18に、取得部11(取得ステップ)で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。検出部13は、構音異常検出方法における検出ステップの実行主体である。実施の形態においては、検出部13(検出ステップ)は、区分部12(区分ステップ)で区分された複数のフレーズの各々が検出モデル18に入力される。つまり、実施の形態においては、取得部11(取得ステップ)で取得した音声情報が直接的に検出モデル18に入力されるのではなく、区分された複数のフレーズが音声情報として間接的に検出モデル18に入力される。
【0075】
検出モデル18は、音声を入力として構音異常の有無に関する情報を出力するように機械学習されたモデルである。具体的には、検出モデル18は、例えば畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)モデルであって、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダモデルである。例えば、検出モデル18は、区分部12により区分された複数のフレーズの各々のRMSエンベロープ又はメルスペクトログラムを入力として、これらの復元を試み、複数のフレーズの各々に対応するRMSエンベロープ又はメルスペクトログラムを出力する。
【0076】
そして、検出部13(検出ステップ)は、検出モデル18に入力される音声情報と、検出モデル18から出力される音声情報との乖離度合いに基づいて、被験者の構音異常の有無を検出する。例えば、健常者についての音声情報を検出モデル18に入力すると、入力した音声情報と殆ど同じ音声情報を復元して出力することになる。この場合、乖離度合いは比較的小さくなる。一方、脳卒中患者のような構音異常を有する被験者についての音声情報を検出モデル18に入力すると、検出モデル18はこの音声情報を復元することができず、入力した音声情報とは異なる音声情報を出力することになる。この場合、乖離度合いは比較的大きくなる。
【0077】
したがって、検出部13は、検出モデル18に入力される入力データと、検出モデル18から出力される出力データとの乖離度合いに基づいて、被験者の構音異常の有無に関する検出情報を生成する。例えば、検出部13は、検出モデル18に入力される入力データと、検出モデル18から出力される出力データとの平均二乗誤差(Mean Squared Error)を算出する。そして、検出部13は、算出した平均二乗誤差が閾値を上回れば被験者が構音異常を有していると検出し、閾値以下であれば被験者が構音異常を有しておらず健常者であると検出する。
【0078】
以下、検出モデル18の学習フェーズの具体例について
図11を用いて説明する。
図11は、実施の形態に係る構音異常検出装置100の検出モデル18について、学習フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からメルスペクトログラムを音声情報として取得する。
【0079】
音声波形から得られるメルスペクトログラムは、次元数が「γ」(γは自然数であって、β≠γ)、フレーム数が「q」(qは自然数であって、q≠p)となる。
【0080】
次に、検出部13は、取得部11が取得した音声情報を、区分部12が出力する区分情報を参照することにより複数のフレーズに区分することで、複数のフレーズのみで構成された区分データを生成する。区分データは次元数が「γ」となり、区分データのフレーム数は「r」(rは自然数であって、r<q)となる。ここで生成した区分データにおいては、複数のフレーズの長さが不均一であるため、以下では「未整形区分データ」という。次に、区分データに含まれる複数のフレーズをリサイズすることにより、複数のフレーズの長さを統一する。以下ではリサイズされた区分データを単に「区分データ」という。区分データは、未整形区分データと同様に、次元数が「γ」であり、フレーム数が「r’」である。
【0081】
次に、区分データを機械学習が未だ完了していない検出モデル18(以下、「未完了の検出モデル18」という)に入力する。これにより、未完了の検出モデル18は、入力された区分データの復元を試みた復元データを出力する。この復元データは、区分データと同様に、次元数が「γ」であり、フレーム数が「r’」である。
【0082】
そして、区分データと、未完了の検出モデル18が出力する復元データとを損失関数(ここでは、平均二乗誤差関数)に入力し、損失関数の出力が最小値となるように誤差逆伝播法を実行することで、未完了の検出モデル18を教師なし学習により機械学習させる。
【0083】
以下、機械学習が完了した検出モデル18を用いた推論フェーズの具体例について
図12を用いて説明する。
図12は、実施の形態に係る構音異常検出装置100の検出モデル18を用いた推論フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からメルスペクトログラムを音声情報として取得する。
図12に示す例では、メルスペクトログラムの一例を図示している。なお、メルスペクトログラムの次元数及びフレーム数は、いずれも学習フェーズと同様である。
【0084】
次に、検出部13は、取得部11が取得した音声情報を、区分部12が出力する区分情報を参照することにより複数のフレーズに区分することで、未整形の区分データを生成する。次に、検出部13は、区分データに含まれる複数のフレーズをリサイズすることにより、区分データを生成する。
【0085】
次に、検出部13は、生成した区分データを検出モデル18に入力する。これにより、検出モデル18は、復元データを出力する。そして、検出部13は、検出モデル18に入力される区分データと、検出モデル18が出力した復元データとの平均二乗誤差を算出し、算出した平均二乗誤差と閾値とを比較することにより、被験者の構音異常の有無に関する検出情報を生成する。検出部13が生成した検出情報は、後述する出力部14にて用いられる。
【0086】
なお、実施の形態では、検出モデル18の学習フェーズ、及び検出モデル18を用いた推論フェーズのいずれにおいても音声波形から得られたメルスペクトログラムを音声情報として用いているが、音声波形から得られたRMSエンベロープを音声情報として用いてもよい。
【0087】
また、検出部13は、区分データを全て検出モデル18に入力するのではなく、例えば区分データに含まれる複数のフレーズのうち最後のフレーズを除く等して、区分データの一部を検出モデル18に入力してもよい。というのも、被験者が検査フレーズを最後まで確実に発声しない可能性があり、このような場合に最後のフレーズは検出モデル18にとってノイズとなるからである。
【0088】
出力部14は、検出部13(検出ステップ)で検出された被験者の構音異常の有無に関する検出情報を出力する。出力部14は、構音異常検出方法における出力ステップの実行主体である。検出情報は、被験者が構音異常を有しているか否かを示す情報を含み得る。実施の形態では、検出情報は、被験者の構音異常の有無に紐づく、被験者の脳卒中の発症の予兆の有無を示す情報を含む。出力部14は、例えば情報端末のディスプレイに検出情報を示す文字列又は画像等を表示することにより、検出情報を出力する。
【0089】
再生部15は、取得部11が音声情報を取得する前に(取得ステップの前に)、被験者の発する音声についてのサンプル音声を被験者に対して再生する。再生部15は、構音異常検出方法における再生ステップの実行主体である。サンプル音声は、例えば機械音声であって、検査フレーズを所定の音量及び所定のリズムで読み上げた音声である。再生部15は、例えば被験者が情報端末にて所定の操作を行うことをトリガとして、情報端末に搭載されたスピーカからサンプル音声を再生する。
【0090】
記憶部16は、取得部11、区分部12、検出部13、出力部14、及び再生部15が各種処理を行うために必要な情報(コンピュータプログラム等)が記憶される記憶装置である。記憶部16は、例えば半導体メモリにより実現されるが、特に限定されることなく公知の電子情報記憶の手段を用いることができる。記憶部16には、区分部12で用いられる区分モデル17と、検出部13で用いられる検出モデル18と、が格納されている。
【0091】
[3.動作]
以下、実施の形態に係る構音異常検出装置100の動作(つまり、構音異常検出方法)の一例について
図13~
図15を用いて説明する。
図13は、実施の形態に係る構音異常検出装置100の動作例を示すフローチャートである。
図14は、実施の形態に係る構音異常検出装置100及び構音異常検出方法の概要の一例を示す図である。
図15は、実施の形態に係る構音異常検出装置100の動作の具体例を示す図である。
【0092】
以下では、
図14に示すように、区分モデル17及び検出モデル18は、いずれも既に説明した方法により事前に機械学習されていることとして説明する。また、以下では、被験者2は、過去に脳卒中を発症したことがあり、現時点では脳卒中から完全ではないが回復した軽症患者であることとして説明する。もちろん、被験者2は、過去に脳卒中を発症したことがない人であってもよい。
【0093】
図15の(a)~(d)は、いずれも情報端末3での「脳卒中再発チェッカー」というアプリケーションの実行フローを表している。
図15の(a)は、当該アプリケーションを起動した際に情報端末3のディスプレイ31に表示される画像を表している。ディスプレイ31の中央には、「ことばでチェック」という文字列を含むアイコン41が表示されている。被験者2がアイコン41に指で触れる等してアイコン41を選択する操作を行うことで、
図15の(b)に示すフローへ移行する。
【0094】
図15の(b)に示すように、情報端末3のディスプレイ31には、「次のように話してください」という被験者2に検査フレーズの発声を促す文字列M1と、「デレデレデレデレデレデレデレデレ」という検査フレーズを示す文字列M2と、が表示される。また、ディスプレイ31には、「お手本を聞く」という文字列を含むアイコン42と、「チェック開始」という文字列を含むアイコン43と、が文字列M1,M2と共に表示される。
【0095】
ここで、被験者2がアイコン42を選択する操作は、
図13に示す「再生トリガ」に相当する。すなわち、被験者2がアイコン42を選択する操作を行う、言い換えれば再生トリガがあると(S1:Yes)、再生部15(再生ステップ)は、サンプル音声を再生する(S2)。なお、ディスプレイ31にアイコン42を表示するタイミングについては、音声情報を取得する前に限らず、音声情報を取得した後であってもよい。例えば、アイコン42は、被験者2の発する声の音量が小さい等して何らかの原因で被験者2の検査フレーズを検出できなかった場合にディスプレイ31に表示されてもよい。また、例えば、アイコン42は、後述するステップS4における音声情報から複数のフレーズを区分する処理が実行できなかった場合にディスプレイ31に表示されてもよい。また、例えば、アイコン42は、後述するステップS5における構音異常の有無を検出する処理が実行できなかった場合にディスプレイ31に表示されてもよい。
【0096】
被験者2がアイコン42を選択する操作を行わずに(S2:No)、又は被験者2がアイコン42を選択する操作を行った後に、被験者2がアイコン43を選択する操作を行うと、次に
図15の(c)に示すフローへ移行する。なお、アイコン43は、被験者2がアイコン42を選択する操作を行ってサンプル音声を再生した後に、被験者2による操作を受け付ける(つまり、アクティブになる)態様であってもよい。この場合、被験者2がサンプル音声を聞くまでは、
図15の(c)に示すフローへ移行することができない。アイコン43は、サンプル音声が再生されるまでの間は、例えば灰色で表示される等してインアクティブであることを示す態様で表示され、サンプル音声が再生させると、例えば白色で表示される等してアクティブであることを示す態様で表示されてもよい。
【0097】
図15の(c)に示すように、情報端末3のディスプレイ31には、引き続き文字列M1,M2が表示される。また、ディスプレイ31には、被験者2が発声する検査フレーズを録音していることを示すサブ画像5と、「判定」という文字列を含むアイコン44と、が文字列M1,M2と共に表示される。サブ画像5には、「録音中」という文字列と、情報端末3のマイクロフォンが収音した音声波形と、が表示される。つまり、
図15の(c)に示すフローにおいて、取得部11(取得ステップ)は、音声情報を取得する(S3)。
【0098】
次に、被験者2がアイコン44を選択する操作を行うと、被験者2の構音異常の有無を判定(検出)する一連の処理が開始される。まず、区分部12(区分ステップ)は、取得部11(取得ステップ)が取得した音声情報から複数のフレーズを区分する(S4)。次に、検出部13(検出ステップ)は、区分部12(区分ステップ)で区分された複数のフレーズの各々を検出モデル18に入力することで、被験者2の構音異常の有無を検出する(S5)。そして、出力部14は、検出部13(検出ステップ)で検出された被験者2の構音異常の有無に関する検出情報を出力する(S6)。具体的には、
図15の(d)に示すように、検出情報は、文字列M3として情報端末3のディスプレイ31に表示される。ここでは、被験者2に構音異常が検出された場合、言い換えれば被験者2に脳卒中の発症の予兆があった場合の検出情報として、「脳卒中が再発している可能性があります。専門医の受診をお勧めします。」という文字列M3が表示されている。なお、被験者2に構音異常が無い場合、言い換えれば被験者2に脳卒中の発症の予兆が無い場合は、例えば「特に異常はありません。」等の文字列がディスプレイ31に表示されることになる。
【0099】
その他、検出情報は、例えば
図16に示すような形で情報端末3のディスプレイ31に表示されてもよい。
図16は、実施の形態に係る構音異常検出装置100の動作の他の具体例を示す図である。
【0100】
図16の(a)に示す例では、検出情報は、文字列M3及び第1グラフ6としてディスプレイ31に表示されている。第1グラフ6は、被験者2の音声波形から得られたRMSエンベロープを表しており、被験者2が正確にフレーズを発声することに失敗した(言い換えれば、構音異常が認められた)失敗区間61を含んでいる。被験者2は、第1グラフ6を見ることで、自身がどのフレーズの発声を正しく行えなかったかを把握することができる。
【0101】
図16の(b)に示す例では、検出情報は、文字列M3及び第1グラフ6、並びに「失敗率38%です」という文字列M4としてディスプレイ31に表示されている。文字列M4は、被験者2が音声を発した全区間に対して失敗区間61が占める割合(つまり、失敗率)を提示する。被験者2は、文字列M4を見ることで、脳卒中が再発している可能性がどの程度高いかを把握することができる。
【0102】
図16の(c)に示す例では、検出情報は、文字列M3及び第2グラフ7としてディスプレイ31に表示されている。第2グラフ7は、失敗率を時系列に沿って表した棒グラフである。ここでは、第2グラフ7には、8月1日から8月11日までの期間において、連日、「脳卒中再発チェッカー」を実行した結果が表されている。第2グラフ7における横線71は、閾値を表しており、失敗率が当該閾値を上回ると、脳卒中が再発している可能性が高いことを示す。被験者2は、第2グラフ7を見ることで、脳卒中が再発している可能性がどの程度高いかを時系列で把握することができる。
【0103】
上述のように、実施の形態に係る構音異常検出装置100及び構音異常検出方法では、医師又は言語聴覚士等の専門家に頼ることなく、被験者2の発する音声から構音異常の有無、更には脳卒中の発症の予兆の有無を検出することが可能である。このため、実施の形態に係る構音異常検出装置100及び構音異常検出方法を用いることで、被験者2に脳卒中の発症の予兆があれば、被験者2に対して速やかに受診を促すことで早期の治療による重症化の防止が期待できる。
【0104】
[4.効果等]
以上説明したように、実施の形態に係る構音異常検出方法は、取得ステップ(S3)と、検出ステップ(S5)と、を含む。取得ステップ(S3)では、被験者の発する音声に関する音声情報を取得する。検出ステップ(S5)では、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデル18に、取得ステップ(S5)で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。
【0105】
これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【0106】
また、実施の形態に係る構音異常検出方法では、音声情報は、被験者が舌を所定のパターンで動かすことで発せられる特定音を含んでいる。
【0107】
これによれば、構音異常の有無の指標となり得る舌の麻痺度合いを検出しやすいことから、音声情報が特定音を含まない場合と比較して、被験者の構音異常の有無を検出しやすくなる、という利点がある。
【0108】
また、実施の形態に係る構音異常検出方法では、特定音は、弾音である。
【0109】
これによれば、舌が麻痺している場合に発しにくい弾音を特定音に含めることで、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
【0110】
また、実施の形態に係る構音異常検出方法では、音声情報は、特定音と破裂音とが連続するフレーズを含んでいる。
【0111】
これによれば、被験者の発する音声において位置を特定しやすい破裂音を特定音に連続させることで、被験者の発する音声における特定音の位置を特定しやすくなることから、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
【0112】
また、実施の形態に係る構音異常検出方法では、音声情報は、フレーズを複数含んでいる。また、実施の形態に係る構音異常検出方法は、取得ステップ(S3)で取得した音声情報から複数のフレーズを区分する区分ステップ(S4)を更に含んでいる。また、検出ステップ(S5)では、区分ステップ(S4)で区分された複数のフレーズの各々が検出モデル18に入力される。
【0113】
これによれば、単一のフレーズから被験者の構音異常の有無を検出する場合と比較して、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
【0114】
また、実施の形態に係る構音異常検出方法において、区分ステップ(S4)では、音声情報としてのRMS(Root Mean Square)エンベロープ又はスペクトログラムに基づいて、複数のフレーズを区分する。
【0115】
これによれば、RMSエンベロープ又はスペクトログラムに複数のフレーズを区別し得る特徴が現れやすいことから、複数のフレーズを区分する精度の向上が期待できる、という利点がある。
【0116】
また、実施の形態に係る構音異常検出方法において、区分ステップ(S4)では、複数のフレーズを含む音声を入力として複数のフレーズを区分するように機械学習された区分モデル17に、取得ステップ(S3)で取得した音声情報を入力することで、複数のフレーズを区分する。
【0117】
これによれば、区分モデル17を用いずに複数のフレーズを区分する場合と比較して、複数のフレーズを区分する精度の向上が期待できる、という利点がある。
【0118】
また、実施の形態に係る構音異常検出方法では、検出モデル18は、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダである。また、検出ステップ(S5)では、検出モデル18に入力される音声情報と、検出モデル18から出力される音声情報との乖離度合いに基づいて、被験者の構音異常の有無を検出する。
【0119】
これによれば、健常者よりも少数である構音異常を有する患者の音声を用いて検出モデル18を学習する場合と比較して多数の学習用データを準備しやすいので、検出モデル18を学習しやすい、という利点がある。
【0120】
また、実施の形態に係る構音異常検出方法は、検出ステップ(S5)で検出された被験者の構音異常の有無に関する検出情報を出力する出力ステップ(S6)を更に含んでいる。
【0121】
これによれば、例えば検出情報を被験者に対して出力することで、自身が構音異常を有しているか否かを被験者が把握することができる、という利点がある。
【0122】
また、実施の形態に係る構音異常検出方法は、取得ステップ(S3)の前に、被験者の発する音声についてのサンプル音声を被験者に対して再生する再生ステップ(S2)を更に含んでいる。
【0123】
これによれば、被験者がサンプル音声を再現して発声できているか否かを含めて被験者の構音異常の有無を検出することが可能になり、被験者の構音異常の有無を検出する精度の向上が期待できる、という利点がある。
【0124】
また、実施の形態に係る構音異常検出装置100は、取得部11と、検出部13と、を備える。取得部11は、被験者の発する音声に関する音声情報を取得する。検出部13は、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデル18に、取得部11で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。
【0125】
これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【0126】
(他の実施の形態)
以上、本開示の1つ又は複数の態様に係る構音異常検出方法及び構音異常検出装置100について、上記の実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構成される形態も、本開示の1つ又は複数の態様の範囲内に含まれてもよい。
【0127】
例えば、上記実施の形態では、区分部12(区分ステップ)は、区分モデル17を用いて複数のフレーズを区分しているが、これに限られない。例えば、区分部12(区分ステップ)は、被験者の音声波形から得られるRMSエンベロープにおいてパワーが所定値以下となる箇所で区切るように、複数のフレーズを区分してもよい。この場合、区分モデル17は不要である。
【0128】
例えば、上記実施の形態では、被験者に発声させる検査フレーズ(つまり、取得部11が取得する音声情報)として複数のフレーズを採用しているが、単一のフレーズであってもよい。この場合、区分部12(区分ステップ)は不要である。
【0129】
また、上記実施の形態では、被験者に発声させる検査フレーズ(つまり、取得部11が取得する音声情報)として「デレデレデレ…」を採用しているが、これに限らず、破裂音と弾音とが連続するフレーズであってもよい。また、検査フレーズは、破裂音と弾音とが連続するフレーズに限らず、例えば弾音のみで構成されたフレーズであってもよい。また、検査フレーズは、検出モデル18の学習方法の如何によっては、弾音を含んでいなくてもよく、更には舌を所定のパターンで動かすことで発せられる特定音を含んでいなくてもよい。
【0130】
また、上記実施の形態では、構音異常検出装置100は情報端末に搭載されているが、これに限られない。例えば、構音異常検出装置100は、サーバ装置に搭載されていてもよい。サーバ装置は、クラウドサーバであってもよいし、ローカルサーバであってもよい。この場合、サーバ装置に搭載されたプロセッサが所定のプログラムを実現することにより、構音異常検出装置100が実現される。また、この場合、被験者は、情報端末を用いてサーバ装置にネットワーク等を通じてアクセスすればよい。また、例えば、構音異常検出装置100は、その一部の構成が情報端末に搭載され、残りの構成がサーバ装置に搭載される構成であってもよい。
【0131】
また、構音異常検出装置100は、スマートフォン又はタブレット端末等の汎用の情報端末ではなく、構音異常検出機能を有する専用端末とした装置に格納されていてもよい。この場合、上記専用端末とした装置に搭載されたプロセッサが所定のプログラムを実行することにより、構音異常検出装置100が実現される。
【0132】
例えば、上記実施の形態に係る構音異常検出装置100が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)等を含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
【0133】
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC(Integrated Circuit)、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法は、LSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいは、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0134】
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
【0135】
また、本開示の一態様は、構音異常検出方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体であってもよい。すなわち、プログラムは、1以上のプロセッサに、上記の構音異常検出方法を実行させてもよい。
【0136】
これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
【産業上の利用可能性】
【0137】
本開示は、例えば、脳卒中の発症の予兆の有無を判定するための方法等に利用可能である。
【符号の説明】
【0138】
100 構音異常検出装置
11 取得部
12 区分部
13 検出部
14 出力部
15 再生部
16 記憶部
17 区分モデル
18 検出モデル
2 被験者
3 情報端末
31 ディスプレイ
41~44 アイコン
5 サブ画像
6 第1グラフ
61 失敗区間
7 第2グラフ
71 横線
A1、A2、B1、B2、C1~C3 領域
M1~M4 文字列