IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック株式会社の特許一覧 ▶ 国立大学法人滋賀医科大学の特許一覧

特開2023-146782構音障害検出装置および構音障害検出方法
<>
  • 特開-構音障害検出装置および構音障害検出方法 図1
  • 特開-構音障害検出装置および構音障害検出方法 図2
  • 特開-構音障害検出装置および構音障害検出方法 図3
  • 特開-構音障害検出装置および構音障害検出方法 図4
  • 特開-構音障害検出装置および構音障害検出方法 図5
  • 特開-構音障害検出装置および構音障害検出方法 図6A
  • 特開-構音障害検出装置および構音障害検出方法 図6B
  • 特開-構音障害検出装置および構音障害検出方法 図7
  • 特開-構音障害検出装置および構音障害検出方法 図8A
  • 特開-構音障害検出装置および構音障害検出方法 図8B
  • 特開-構音障害検出装置および構音障害検出方法 図9
  • 特開-構音障害検出装置および構音障害検出方法 図10A
  • 特開-構音障害検出装置および構音障害検出方法 図10B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023146782
(43)【公開日】2023-10-12
(54)【発明の名称】構音障害検出装置および構音障害検出方法
(51)【国際特許分類】
   A61B 10/00 20060101AFI20231004BHJP
   G10L 25/66 20130101ALI20231004BHJP
   G10L 21/10 20130101ALI20231004BHJP
   G10L 25/30 20130101ALI20231004BHJP
【FI】
A61B10/00 H
G10L25/66
G10L21/10
G10L25/30
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022054156
(22)【出願日】2022-03-29
(71)【出願人】
【識別番号】000005821
【氏名又は名称】パナソニックホールディングス株式会社
(71)【出願人】
【識別番号】504177284
【氏名又は名称】国立大学法人滋賀医科大学
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】櫻井 朗穂
(72)【発明者】
【氏名】釜井 孝浩
(72)【発明者】
【氏名】大毛 勝統
(72)【発明者】
【氏名】小川 智輝
(72)【発明者】
【氏名】高畑 翔吾
(72)【発明者】
【氏名】長尾 青空
(72)【発明者】
【氏名】川見 員令
(57)【要約】
【課題】構音障害を迅速に検出することが可能な構音障害検出装置および構音障害検出方法を提供する。
【解決手段】構音障害検出装置は、有声破裂音を含む音声モジュールを被検者に繰り返し発声させた音声データを、有声破裂音の標準発声時間以下に設定された第1窓長を用いて平均化した第1線を生成する第1線生成部と、音声データを、音声モジュールの標準時間以上、標準時間の2倍以下に設定された第2窓長を用いて平均化した第2線を生成する第2線生成部と、第1線の値が第2線の値に所定の正の実数を乗算した値よりも大きい区間を検出する区間検出部と、区間検出部の検出結果に基づいて、構音障害を判定する判定部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
有声破裂音を含む音声モジュールを被検者に繰り返し発声させた音声データを、前記有声破裂音の標準発声時間以下に設定された第1窓長を用いて平均化した第1線を生成する第1線生成部と、
前記音声データを、前記音声モジュールの標準時間以上、前記標準時間の2倍以下に設定された第2窓長を用いて平均化した第2線を生成する第2線生成部と、
前記第1線の値が前記第2線の値に所定の正の実数を乗算した値よりも大きい区間を検出する区間検出部と、
前記区間検出部の検出結果に基づいて、構音障害を判定する判定部と、
を備える構音障害検出装置。
【請求項2】
前記音声データに基づく画像を生成する画像生成部と、
複数の健常者における原音声に基づく画像を教師データとして利用して訓練された学習モデルを格納する格納部と、
を備え、
前記判定部は、前記学習モデルに基づいて、前記区間検出部が検出した区間毎にスコアを算出し、算出したスコアに基づいて前記構音障害を判定する、
請求項1に記載の構音障害検出装置。
【請求項3】
前記判定部は、前記区間検出部が検出した区間のカウント数に基づいて前記構音障害を判定する、
請求項1または請求項2に記載の構音障害検出装置。
【請求項4】
前記判定部は、前記区間検出部が検出した区間の長さに基づいて、当該区間をカウントするか否かについて判定する、
請求項3に記載の構音障害検出装置。
【請求項5】
前記第1線生成部は、前記第1窓長を、前記標準発声時間の1/3以上に設定する、
請求項1~4の何れか1項に記載の構音障害検出装置。
【請求項6】
前記有声破裂音は、前記音声モジュールの先頭音節である、
請求項1~5の何れか1項に記載の構音障害検出装置。
【請求項7】
前記音声モジュールは、前記有声破裂音と連続する有声弾音とを含む、
請求項1~6の何れか1項に記載の構音障害検出装置。
【請求項8】
前記有声破裂音の音節の母音は、/e/である、
請求項1~7の何れか1項に記載の構音障害検出装置。
【請求項9】
有声破裂音を含む音声モジュールを被検者に繰り返し発声させた音声データを、前記有声破裂音の標準発声時間以下に設定された第1窓長を用いて平均化した第1線を生成するステップと、
前記音声データを、前記音声モジュールの標準時間以上、前記標準時間の2倍以下に設定された第2窓長を用いて平均化した第2線を生成するステップと、
前記第1線の値が前記第2線の値に所定の正の実数を乗算した値よりも大きい区間を検出するステップと、
前記区間の検出結果に基づいて、構音障害を判定するステップと、
を有する構音障害検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、構音障害検出装置および構音障害検出方法に関する。
【背景技術】
【0002】
脳卒中や交通事故等に起因して運動障害が起こると、唇や舌等の筋肉を動かす指令が適切に働かず、発音に障害(以下、構音障害)が生じる場合がある。このような構音障害では、舌等が正確に動かないため、全体的に音が繋がったように聞こえたり、リズムや速さが乱れたりする。そのため、会話等が不明瞭なものになりやすい。
【0003】
被検者の構音障害等を検出する装置としては、例えば、特許文献1に、被検者が発した音声データから抽出した特徴量と、音声データから生成したスペクトログラム画像とに基づいて被検者の疾患または症状を推定する構成が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第6854554号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
このような構音障害を迅速に検出できた場合、治療の選択肢が増え、症状の緩和につながりやすいので、構音障害の症状を迅速に検出可能な装置が望まれている。
【0006】
本開示の目的は、構音障害を迅速に検出することが可能な構音障害検出装置および構音障害検出方法を提供することである。
【課題を解決するための手段】
【0007】
本開示に係る構音障害検出装置は、
有声破裂音を含む音声モジュールを被検者に繰り返し発声させた音声データを、前記有声破裂音の標準発声時間以下に設定された第1窓長を用いて平均化した第1線を生成する第1線生成部と、
前記音声データを、前記音声モジュールの標準時間以上、前記標準時間の2倍以下に設定された第2窓長を用いて平均化した第2線を生成する第2線生成部と、
前記第1線の値が前記第2線の値に所定の正の実数を乗算した値よりも大きい区間を検出する区間検出部と、
前記区間検出部の検出結果に基づいて、構音障害を判定する判定部と、
を備える。
【0008】
本開示に係る構音障害検出方法は、
有声破裂音を含む音声モジュールを被検者に繰り返し発声させた音声データを、前記有声破裂音の標準発声時間以下に設定された第1窓長を用いて平均化した第1線を生成するステップと、
前記音声データを、前記音声モジュールの標準時間以上、前記標準時間の2倍以下に設定された第2窓長を用いて平均化した第2線を生成するステップと、
前記第1線の値が前記第2線の値に所定の正の実数を乗算した値よりも大きい区間を検出するステップと、
前記区間の検出結果に基づいて、構音障害を判定するステップと、
を有する。
【0009】
本開示によれば、構音障害を迅速に検出することができる。
【図面の簡単な説明】
【0010】
図1】本開示の実施の形態に係る構音障害検出装置の構成例を示すブロック図である。
図2】被検者が音声モジュールを発声した際の音声波形の一例を示す図である。
図3】音声波形に基づいて生成された第1線の一例を示す図である。
図4】第1線に基づいて生成された第2線の一例を示す図である。
図5】第1線および第2線に基づく検出値の一例を示す図である。
図6A】音声モジュールにおける有声弾音を発声できていない場合の検出値の一例を示す図である。
図6B】音声モジュールにおける有声破裂音を発声できていない場合の検出値の一例を示す図である。
図7】被検者が音声モジュールを8回繰り返した際の第1線、第2線および検出値の一例を示す図である。
図8A】健常者のスペクトログラム画像の一例を示す図である。
図8B】構音障害を有する被検者のスペクトログラム画像の一例を示す図である。
図9】構音障害検出装置における検出制御の動作例を示すフローチャートである。
図10A】弱異常検知における、二次元座標系内の正常データおよび異常データの各位置の一例を示す図である。
図10B図10Aの二次元座標系において、入力されたデータと正常データおよび異常データとの位置関係を説明するための図である。
【発明を実施するための形態】
【0011】
(実施の形態)
以下、本開示の実施の形態を図面に基づいて詳細に説明する。図1は、本開示の実施の形態に係る構音障害検出装置100の構成例を示すブロック図である。
【0012】
図1に示すように、構音障害検出装置100は、被検者の発する音声データに基づいて、構音障害を検出する装置である。構音障害検出装置100は、図示しないCPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103および入出力回路を備えており、予め設定されたプログラムに基づいて、被検者における構音障害を検出する。
【0013】
構音障害検出装置100は、音声波形生成部110と、第1線生成部120と、第2線生成部130と、区間検出部140と、画像生成部150と、格納部160と、判定部170とを有する。
【0014】
音声波形生成部110は、被検者に所定の音声モジュールを所定回数繰り返し発声させた際の音声データを取得し、取得した音声データに基づいて音声波形を生成する。
【0015】
所定の音声モジュールは、複数の音を連続して被検者に発声させるための、発声用の要素である。例えば、音声モジュールは、有声破裂音である先頭音節と、当該先頭音節に連続する有声弾音とを含んで構成されても良い。
【0016】
有声破裂音は、構音障害を有する被検者、つまり、舌の麻痺を発症した被検者であっても、比較的発音しやすい音であり、本実施の形態では、「で」である。有声弾音は、舌の麻痺を発症した被検者にとって発音し難い音であり、本実施の形態では、「れ」である。そのため、本実施の形態では、「で」と「れ」とを連続させた「でれ」が音声モジュールとなる。
【0017】
例えば、被検者が、「でれ」と発声した際の原音声の音圧レベルの時間変化は、図2に示すように、振動波形となる。図2における左側の部分が有声破裂音の「で」に対応する波形であり、右側の部分が有声弾音の「れ」に対応する波形である。
【0018】
各音の音圧レベルは、ピーク値に達した後、低下するように変動する。また、有声破裂音と有声弾音とを連続させて被検者が発声しているため、音圧レベルは、有声破裂音のピーク値から少し低下してから、有声弾音のピーク値に向けて再び上昇するように推移する。
【0019】
また、図2では、有声破裂音は有声弾音よりも発音しやすい音であるため、有声破裂音のピーク値が、有声弾音のピーク値よりも大きくなっている例が示されている。
【0020】
音声波形生成部110は、被検者が「でれ」を例えば8回繰り返して発声させた原音声を取得して、その原音声の音圧レベルの時系列データを音声波形として生成する。そのため、図2に示すような音声波形が8つ並んだ時系列データが生成される(不図示)。
【0021】
第1線生成部120は、標準発声時間において、1つの音が被検者により発声されたか否かを判断するための第1線を生成する。
【0022】
第1線は、第1窓長毎に、音声データにおける音圧レベルの二乗平均平方根(rootmean square;RMS)を算出した値で構成されたエンベロープである。
【0023】
標準発声時間は、例えば、被検者が何の制約もなく自然に、1つの音を発声可能な時間であり、任意の時間に設定可能である。本実施の形態では、標準発声時間は、例えば175msに設定される。つまり、本実施の形態では、2つの音で構成される音声モジュールを被検者が1回発声させる際の時間が、標準発声時間の2倍の350msに設定されることになる。
【0024】
第1窓長は、標準発声時間以下に設定される。被検者が1つの音を発声した際の音圧レベルのピーク値は、標準発声時間内に1つの音を正確に発声した場合、標準発声時間内に存在することになる。例えば、第1窓長を標準発声時間よりも大きい時間に設定すると、2つの音のピーク値が、1つの第1窓長内に入る可能性があるので、第1窓長を標準発声時間以下に設定しておくことで、被検者が1つの音を発声した際の音圧レベルのピーク値を確実に切り出すことが可能となる。
【0025】
本実施の形態では、第1窓長は、標準発声時間内の1つの音の発声における揺らぎを考慮して、例えば、標準発声時間の1/3以上(約64ms程度)に設定される。
【0026】
音圧レベルは、典型的には、細かく振動を繰り返すようなデータ(図2参照)となるため、標準発声時間内の音圧レベルを二乗平均平方根化することで、第1線は、例えば図3に示すように、標準発声時間内の音圧レベルの概形を示す線となる。具体的に、第1線は、有声破裂音に対応するピーク値を有する部分と、有声弾音に対応するピーク値を有する部分とが連続した線を示している。
【0027】
より詳細に、第1線生成部120は、標準発声時間に基づいて第1窓長を設定し、設定した第1窓長を用いて、音声波形生成部110が生成した音声波形を平均化した第1線を生成する。
【0028】
第2線生成部130は、音声モジュールの標準時間(標準発声時間の2倍の時間)内で、被検者が正確に音声モジュールを発声できたか否かを判断するための閾値となる第2線を生成する。
【0029】
音声モジュールは、被検者によって、繰返し発声されるため、音声波形は、一定の周期で各音声モジュールの発声に関する波形が繰返されるような時間変化を示すものと考えられる。
【0030】
例えば、図4に示すように、所定の音声モジュールの発声が終わり、音圧レベルが下がった後、次の音声モジュールの発声が開始されている例が示されている。
【0031】
所定回数、音声モジュールを被検者が正確に発声した場合、一定周期毎に1つの音声モジュールの発声が行われると考えられることから、その一定周期を第2窓長として設定し、第2線生成部130は、音声波形を、第2窓長を用いて平均化した第2線を生成する。
【0032】
第2線は、第2窓長毎に、音声データにおける音圧レベルの二乗平均平方根を算出した値で構成されたエンベロープである。
【0033】
第2窓長は、健常者である被検者が発声している期間と、2つの音声モジュールの間の期間(発声していない期間)とが、含まれるように、例えば、標準時間以上、標準時間の2倍以下の時間に設定される。
【0034】
例えば、標準時間は、「で」と「れ」の2つの音を被検者が発声する時間長であり、標準発声時間の2倍分(350ms)に相当する。第2窓長は、例えば、標準時間と、被検者が、所定の音声モジュールを発声し終えてから、自然に次の音声モジュールの発声を開始する時間長(任意の時間長)とを加算した値に設定可能である。本実施の形態では、任意の時間長は、例えば150msに設定される。つまり、本実施の形態では、第2窓長は、350msと150msとを加算した500msに設定される。
【0035】
第2窓長内では、音が発声された期間と、音が発声されていない期間とが存在するため、これらの期間が平均化された第2線は、第1線における、1つの音のピーク値よりも低い値、つまり、ピーク値の存在の判断基準となる閾値を示す線となる。
【0036】
区間検出部140は、第1線と第2線とを比較し、第1線の値が第2線の値に所定の正の実数を乗算した値よりも大きい区間を検出する。所定の正の実数は、例えば、1でも良いし、後述するa等、区間の検出の方法に応じて適宜設定可能な値としても良い。なお、以下の説明では、第2線の値に所定の正の実数を乗算した値を、単に第2線の値と称する。
【0037】
例えば、正確に音声モジュールが発声される場合、「でれ」が発声される期間は、各音の音圧レベルのピーク値が存在することに起因して、第1線の値が第2線の値よりも大きくなる。その一方で、1回の音声モジュールの発声が終了してから、次の音声モジュールの発声を開始するまでの期間は、発声がされていないため、第1線の値が第2線の値よりも小さくなる。なお、以下では、第1線の値が第2線の値よりも大きい場合の検出値を1、第1線の値が第2線の値以下の場合の検出値を0とする。
【0038】
そのため、図5に示すように、正確に音声モジュールが発声された際には、検出値が1となる区間が、音声モジュールが繰り返される回数だけ検出され、かつ、それぞれの区間の長さが、略一定の長さとなる。
【0039】
しかし、音声モジュールのうちの1つの音が発声されない場合、第1線の値が第2線の値以下となる可能性が高くなるので、少なくとも、1となる区間の長さが、正確に音声モジュールが発声される場合よりも短くなる。例えば、構音障害を有する被検者は、上記の通り、有声弾音を発声し難いので、「でれ」と発声した際、「れ」が正確に発声されず、区間の長さが標準時間よりも短くなりやすい。
【0040】
例えば、図6Aに示すように、構音障害を有する被検者が、有声破裂音である「で」は比較的正確に発声し、有声弾音である「れ」を発声できなかった場合、第1線における、有声弾音の部分の音圧レベルが下がる。そのため、1となる区間の長さが、例えば健常者の検出値よりも短くなる。健常者の検出値は、構音障害を有さない健常者である被検者が、音声モジュールを正確に発声した場合の検出値である。
【0041】
また、被検者が最初の「で」の音を延ばして発声したような場合、1となる区間の長さが、1回の音声モジュールの発声時間を超える長さとなる。例えば、構音障害を有する被検者は、有声破裂音であれば比較的発声しやすいが、音声モジュールを繰り返し、発声した際に、うまく舌が回らず、1回の音声モジュールにおける「で」の音を延ばして発声する場合がある。この場合、区間の長さが標準時間よりも長くなりやすい。
【0042】
例えば、図6Bに示すように、構音障害を有する被検者が、有声破裂音である「で」を延ばして発声し、有声弾音である「れ」を発声した場合、第1線における、有声破裂音の部分が長くなる。そのため、1となる区間の長さが、例えば健常者の検出値よりも長くなる。
【0043】
このように、区間検出部140が1となる区間を検出することで、1となる区間の数や、区間の長さを判断することが可能となる。
【0044】
区間検出部140は、以下の式(1)を用いて、第1線の値と第2線の値との大小を検出しても良いし、式(1)以外の方法(例えば、単純に第1線の値と第2線の値とを比較する方法等)を用いて、第1線の値と第2線の値との大小を検出しても良い。
【0045】
検出値={1,(Rms1>a×Rms2)AND(Rms1>0.3×Rms3)、0,otherwise・・・(1)
【0046】
式(1)におけるRms1は、第1線の値であり、Rms2は、第2線の値である。Rms3は、第1線の平均値である。aは、音声モジュール毎のばらつきを考慮した調整係数である。具体的に、aは、例えば0.3以上、0.9125以下の範囲で変更され、例えば以下の式(2)の評価関数を最小にする値が選択されても良い。
【0047】
F(a)=std(dur)+std(interval)+100×Erest・・・(2)
【0048】
std(dur)は、検出された区間長(dur)の標準偏差であり、std(interval)は、検出された区間の中心位置間の距離(interval)の標準偏差であり、Erestは、検出されなかった区間のエネルギーである。
【0049】
式(1)では、(Rms1>a×Rms2)AND(Rms1>0.3×Rms3)が満たされた場合、検出値が1となり、それ以外の場合、検出値が0となる。
【0050】
このように、区間毎のばらつきを最も抑える調整係数を式(1)に適用することで、例えば、他と比べてばらつき度合いの大きい区間が存在しても、ばらつき度合いを押さえた上で、区間を検出することができる。
【0051】
被検者が、音声モジュールを8回繰り返して発声した場合の、第1線(Rms1)および第2線(Rms2)の実際のデータは、例えば、図7に示すようなものとなる。図7には、比較的形の異なる、第1線(Rms1)と第2線(Rms2)とが得られる。各音声モジュールの時間は、T1,T2,T3,T4,T5,T6,T7,T8で示される範囲である。
【0052】
図7に示される第1線は、T1,T2,T3,T4,T5,T6,T7,T8のそれぞれで、基本的には、「で」と「れ」の2つの立ち上がりが存在しているものとなっている。また、図7に示される第1線では、例えばT2では3つの立ち上がりが存在し、T7では、立ち上がりが1つのみ存在している。
【0053】
区間検出部140は、図7に示すデータから、例えば式(1)を用いて、第1線の値と第2線の値とを比較し、1となる区間を検出する。図7に示す例では、各区間の長さにばらつきは起こるもの、8つの区間が検出されている。
【0054】
画像生成部150は、原音声に基づくスペクトログラム画像を生成する。具体的には、区間検出部140で検出された区間における原音声をフーリエ変換して、スペクトログラム画像を生成する。
【0055】
例えば、1つの区間の長さが、2回の標準発声時間(1回の音声モジュールの発声時間)に相当する長さであるので、正確に音声モジュールが発声された場合、1つの音声モジュールの音声に対応するスペクトログラム画像は、略一定の幅になる。正確に音声モジュールが発声された際には、各区間に対応するスペクトログラム画像が、略均等な幅となって生成されやすくなる。
【0056】
正確に音声モジュールが発声された場合、例えば、図8Aに示すように、区間検出部140によって検出された8つの区間S1,S2,S3,S4,S5,S6,S7,S8が略均等な幅となる。
【0057】
また、「で」と「れ」の2つの音のそれぞれで音圧レベルが立ち上がるため、2つの音の間に対応する部分で、音圧レベルが凹むような形となる。そのため、各区間において、各音を区切るような縦線が入ったスペクトログラム画像となることを確認することができる。
【0058】
しかし、音声モジュールにおいて、2つの音のうちの1つの音が発声されていない場合、それに対応するスペクトログラム画像は、正確に音声モジュールが発声された場合よりも短い幅となる。また、被検者が音声モジュールの音をうまく発声することができず、最初の「で」の音を延ばして発声したような場合、それに対応するスペクトログラム画像は、正確に音声モジュールが発声された場合よりも長い幅となる。
【0059】
また、構音障害を有する被検者は、舌が回り難いことから、音声モジュールを繰り返し発声すると、発声しやすい有声破裂音である「で」の音を延ばして発声したり、有声弾音である「れ」を発声せずに、次の音声モジュールを発声し始めることから、長い幅のスペクトログラム画像と、短い幅のスペクトログラム画像とが混在して生成される場合もある。
【0060】
構音障害を有する被検者が音声モジュールを発声した場合、例えば、図8Bに示すように、区間検出部140によって検出された8つの区間S11,S12,S13,S14,S15,S16,S17,S18が、比較的長い幅であり、それぞれのばらつきが大きい幅となったスペクトログラム画像が生成される。
【0061】
図8Bに示す例では、構音障害を有する被検者は、比較的発音しやすい「で」の後の「れ」を上手く発声できていないため、図8Bのような、各区間における、2つの音の間に生じる縦線が認識し難いスペクトログラム画像となっている。
【0062】
このように、正確に発声された場合と、正確に発声されていない場合とで、スペクトログラム画像に明確な差が生じる。
【0063】
そのため、本実施の形態では、機械学習モデルを利用することによって被検者の構音障害を判定する。具体的に、本実施の形態で用いられる学習の手法は、例えばオートエンコーダであっても良い。
【0064】
オートエンコーダは、出力データが入力データと同じになるように学習される機械学習モデルである。本実施の形態では、健常者による音声モジュールの発声に関するスペクトログラム画像を学習して、異常な画像が入力された場合、適切に画像が復元できないことを利用して、構音障害の有無を判断する。
【0065】
格納部160には、複数の健常者における原音声に基づくスペクトログラム画像(例えば、図8Aに示すような画像)を教師データとして訓練された機械学習モデルが格納されている。
【0066】
判定部170は、格納部160に格納された機械学習モデルに基づいて、区間検出部140が検出した各区間のスペクトログラム画像毎にスコアを算出する。具体的には、被検者の原音声に関するスペクトログラム画像(入力画像)を、オートエンコーダに入力し、当該オートエンコーダから出力画像が出力される。そして、判定部170は、入力画像と出力画像との差分画像を算出する。
【0067】
判定部170は、差分画像を算出するため、例えば、差分画像の全画素値を2乗し、2乗した全画素値の平均をとって平均2乗誤差(スコア)を算出しても良い。判定部170は、算出した平均2乗誤差を、予め設定した所定閾値と比較し、平均2乗誤差が所定閾値以上である場合、構音障害を有すると判定しても良い。
【0068】
例えば、図8Bに示すような各区間の幅が広いスペクトログラム画像と、図8Aに示すような健常者によるスペクトログラム画像との差分画像は、区間の幅に差がある分、比較的大きなものとなる。
【0069】
そのため、その差分画像のスコアと、所定閾値とを比較することで、構音障害を検出することができる。
【0070】
このようにすることで、健常者のスペクトログラム画像によって訓練された機械学習モデルを利用して、被検者のスペクトログラム画像が、音声モジュールを正確に発声されたものであるか否かを容易に判断することができる。
【0071】
次に、構音障害検出装置100の動作例について説明する。図9は、構音障害検出装置100における検出制御の動作例を示すフローチャートである。図9における処理は、例えば、被検者による音声モジュールの発声が開始されたタイミングで開始される。
【0072】
図9に示すように、構音障害検出装置100は、被検者の原音声を取得し、音声波形を生成する(ステップS101)。ステップS101の後、構音障害検出装置100は、音声波形に基づいて、第1線を生成し(ステップS102)、第2線を生成する(ステップS103)。
【0073】
ステップS103の後、構音障害検出装置100は、第1線と第2線とを比較し、第1線の値が第2線の値より大きい区間を検出する(ステップS104)。次に、構音障害検出装置100は、検出した区間毎にスペクトログラム画像を生成する(ステップS105)。
【0074】
ステップS105の後、構音障害検出装置100は、生成したスペクトログラム画像と、学習モデルにおける健常者のスペクトログラム画像との差分画像を算出して、差分画像のスコアが所定閾値以上であるか否かについて判定する(ステップS106)。
【0075】
判定の結果、差分画像のスコアが所定閾値以上である場合(ステップS106、YES)、構音障害検出装置100は、構音障害を検出する(ステップS107)。一方、差分画像のスコアが所定閾値未満である場合(ステップS106、NO)、構音障害検出装置100は、構音障害を有さないとする(ステップS108)。ステップS107またはステップS108の後、本制御は終了する。
【0076】
以上のように構成された本実施の形態によれば、被検者に先頭音節が有声破裂音である音声モジュールを所定回数繰り返し発声させた原音声に基づく音声波形から生成した第1線および第2線を用いて構音障害を検出する。
【0077】
つまり、比較的発音しやすい有声破裂音から始まる音声モジュールを被検者に所定回数繰り返させることで、有声破裂音に基づく音声波形の音圧レベルのピーク値を識別しやすくすることができる。
【0078】
具体的には、音声レベルのピーク値を立てやすくすることで、第1線における第2線より大きい区間を検出しやすくすることができるので、検出した区間に基づいた構音障害を検出しやすくすることができる。
【0079】
具体的には、その区間に基づくスペクトログラム画像を生成して、その区間内における、被検者の画像と、健常者に基づく正常画像とを比較するので、構音障害を検出しやすくすることができる。
【0080】
構音障害を有する被検者の場合、検出する区間の長さや数、および、スペクトログラム画像に、健常者の場合との差異が出やすいため、容易に構音障害を有するか否かを検出することができる。
【0081】
また、比較的発音しやすい有声破裂音を先頭音節に有する音声モジュールを用いるので、音圧レベルのピーク値を検出しやすくすることができる。例えば、何の制約もない音圧モジュールを用いて検出を行う構成では、音声モジュールの内容によって、検出結果に差が出てしまい、迅速、かつ、正確に検出を行うことができないおそれがある。
【0082】
それに対し、本実施の形態では、音圧レベルのピーク値が検出しやすい音声モジュールを用いるので、迅速、かつ、正確に、構音障害を有するか否かを検出することができる。
【0083】
また、構音障害を迅速、かつ、正確に検出することができるので、例えば、より専門性の高い医療機関との連携を迅速に行うことができる。その結果、例えば、まだ程度の低い段階で医療機関へ受診することにより、早期の治療開始が可能になること、それに伴う治療の選択肢が増えることにより、構音障害の症状の緩和につなげることができる。
【0084】
また、第1窓長を標準発声時間以下に設定するので、各音の音圧レベルのピーク値を確実に切り出すことができる。
【0085】
また、第1窓長を標準発声時間の1/3程度に設定することで、1つの音の発声の揺らぎを考慮した、第1線を生成することができるので、音圧レベルのピーク値を切り出しやすくすることができる。
【0086】
また、音声モジュールは、発音しやすい有声破裂音と、発音し難い有声弾音とを含むので、1回の音声モジュールに相当する標準時間内で音圧レベルのピーク値に差を生じさせやすくすることができる。その結果、区間の長さや区間の数、および、スペクトログラム画像において、正常な結果との差異を生じさせやすくすることができる。その結果、構音障害を検出しやすくすることができる。
【0087】
なお、上記実施の形態では、機械学習モデルに基づくスコアに基づいて、構音障害を検出していたが、本開示はこれに限定されず、区間検出部140の検出結果のみに基づいて、構音障害を検出しても良い。
【0088】
具体的には、判定部170は、区間検出部140が検出した区間のカウント数に基づいて構音障害を検出しても良い。
【0089】
例えば、被検者が正確に音声モジュールを8回繰り返し発声した場合、8つの区間が検出される。しかし、構音障害を有する被検者が、同様に、音声モジュールを繰り返し発声しても、8つの区間が検出されるとは限らない。
【0090】
例えば、構音障害を有する被検者が、所定の音声モジュールを発声した際に、うまく舌が回らずに、「で」が延びたように発声した場合、この音声モジュールの区間と、次の音声モジュールの区間とが繋がって検出される場合がある。
【0091】
また、構音障害を有する被検者が、1つの音声モジュールを2つの音をうまく発声せず、その区間が検出されない場合がある。
【0092】
これらの場合、区間検出部140が8未満の区間を検出することになる。
【0093】
また、構音障害を有する被検者が、所定の音声モジュールを発声した際に、「で」と「れ」との発声タイミングがあくことにより、1つの音声モジュールに対して、2つの区間が検出される場合がある。このような場合、区間検出部140が8より多い区間を検出することになる。
【0094】
そのため、判定部170は、区間検出部140が検出した区間のカウント数が、音声モジュールの繰り返し回数ではない場合、構音障害を検出しても良い。
【0095】
このようにすることで、構音障害の検出における迅速性を向上させることができる。
【0096】
また、判定部170は、区間検出部140が検出した区間の長さに基づいて、当該区間をカウントするか否かについて判定しても良い。
【0097】
構音障害を有する被検者が、上記の通り、区間の長さが長くなったり短くなったりすることがあるため、標準時間を大きく超える区間(例えば、図6B参照)や、標準時間に大きく届かない区間(例えば、図6A参照)が検出される場合がある。
【0098】
そのため、判定部170は、このような区間をカウントしないと判定することで、明らかに構音障害の影響を受けた区間を除外することができる。その結果、構音障害を有する被検者に関する区間のカウント数に、所望の区間数との差異を出させやすくすることができる。
【0099】
また、区間検出部140の検出結果のみに基づいて構音障害を検出する場合、画像生成部150、格納部160は設けられていなくても良い。
【0100】
また、判定部170は、区間検出部140による区間のカウント数および、学習モデルに基づくスコアの両方に基づいて、構音障害を検出しても良い。
【0101】
例えば、判定部170は、区間のカウント数に基づいて、構音障害の一次判定を行う。一次判定においては、例えば、区間のカウント数に基づいて、判定部170が、二次判定を行うか否かについて判定する。二次判定は、学習モデルに基づくスコアに基づいて構音障害を検出するための判定である。
【0102】
例えば、区間のカウント数が所定範囲内(例えば、6~10回の範囲)ではない場合、判定部170は、二次判定を行わないと判定して、一次判定の結果をもって、構音障害を有すると判定する。
【0103】
また、区間のカウント数が所定範囲内である場合、判定部170は、二次判定を行うと判定して、二次判定を行う。そして、二次判定において、スペクトログラム画像等を用いて、詳細な判定を行う。
【0104】
このように、一次判定によって、簡易的に判定を行い、一次判定で判断できない場合に、二次判定によって、詳細な判定を行うことで、検出の効率を向上させることができる。
【0105】
また、一次判定および二次判定を常時行うようにしても良い。一次判定および二次判定の両方で判定を行うことにより、検出の精度を向上させることができる。
【0106】
また、一次判定の結果をもって、再び判定を行うようにしても良い。例えば、構音障害検出装置100における音声取得に不具合がある場合等、一次判定の区間のカウント数が明らかに誤りである際に、再び判定を行うことで、検出の精度を向上させることができる。
【0107】
また、上記実施の形態では、オートエンコーダの手法を用いて、構音障害を検出していたが、本開示はこれに限定されず、オートエンコーダ以外の手法で構音障害を検出しても良い。
【0108】
オートエンコーダ以外の手法としては、例えば弱異常検知の手法が挙げられる。
【0109】
弱異常検知は、正常データおよび異常データの両方を学習に用いる手法であり、弱異常検知では、メトリックラーニング(計量学習)の手法が用いられ、正常データの特徴量の位置と、異常データの特徴量の位置とが互いに遠くなるように学習が進められる。
【0110】
具体的には、2つの特徴量ベクトル間の「距離」がデータの「類似度」を反映するようにDNN(Deep Neural Network)モデルが訓練される。例えば、類似するクラスに属するサンプル同士だと、特徴量ベクトル間の距離が小さく、互いに非類似のクラスに属するサンプル同士だと、特徴量ベクトル間の距離が大きくなるようにDNNモデルが訓練される。
【0111】
本実施の形態の場合、DNNモデルの学習が進むにつれ、例えば、健常者の発声に関するデータ(正常データ)が1か所に集中するように、DNNモデルが訓練される。そして、構音障害を有する被検者の発声に関するデータ(異常データ)は、健常者の発声に関するデータ群からの距離が離れるようにDNNモデルが訓練される。
【0112】
例えば、図10Aに示すように、横軸をX、縦軸をYとする二次元座標系において、ある箇所に位置する正常データがあり、正常データから距離を置いた位置に第1異常データおよび第2異常データが位置するように、DNNモデルが訓練される。
【0113】
この距離を異常度として取り扱うことで、判定部170は、構音障害を有するか否かを検出する。
【0114】
例えば、図10Bに示すように、入力されたデータが、正常データの範囲内である場合、二次元座標系において、正常データの範囲内に当該データが位置することになる(白丸参照)。
【0115】
それに対し、入力されたデータが、第1異常データに近いものである場合、第1異常データに近い位置に当該データが位置することになる(黒丸参照)。また、入力されたデータが、第2異常データに近いものである場合、第2異常データに近い位置に当該データが位置することになる(黒四角参照)。
【0116】
このように、入力されたデータと、正常データとの距離を、異常度として取り扱うことによっても、構音障害を有するか否かを検出することができる。
【0117】
また、オートエンコーダ以外の手法としては、例えば、時間領域異常検知の手法も挙げられる。
【0118】
時間領域異常検知の手法は、話速と、区間の中心間隔の標準偏差とを用いて、所定の指標Aを異常度のスコアとして用いる手法である。所定の指標Aは、例えば、以下の式(3)を用いて算出される。
【0119】
A=1/Mpsec+wσ・・・(3)
【0120】
Mpsecは、被検者が、音声モジュールの発声回数、連続して発話した際の話速の平均値である。σは、区間検出部140によって検出された区間の中心間隔の標準偏差である。wは、重み付け係数であり、実験的に決定される値(例えば、2等)である。区間の中心間隔は、隣り合う各区間の中心間隔である。
【0121】
Mpsec、σを用いて発話の印象を評価する技術(「発話音声から受ける要素感覚を決める音響特徴量の評価指標」、西田悠、外3名、FIT2017、第16回情報科学技術フォーラム、J-018、p.377-378)によれば、Mpsecにより、声が明瞭と感じる度合い、σにより、抑揚がついていると感じる度合いを評価することが可能である。
【0122】
このような指標Aを用いて、例えばσが大きくなると、区間の中心間隔の分散が大きいことになり、被検者による音声モジュールの発声のリズムが乱れていることが検知可能となる。つまり、指標Aの許容範囲を健常者データに基づいて設定し、判定部170は、被検者のデータから算出された指標が、この許容範囲から外れた場合、構音障害を検出することが可能となる。
【0123】
また、上記実施の形態では、音声モジュールが有声破裂音と有声弾音とが連続した2つの音で構成されていたが、本開示はこれに限定されず、有声破裂音を含む限り、どのように構成されていても良く、例えば、有声弾音を有さなくても良いし、3つ以上の音で構成されていても良い。ただし、音声モジュールに強弱をつけて、被検者に発声させる方が、検出される区間に違いが出やすいので、音声モジュールが有声破裂音と有声弾音とが連続している2つの音を含むことが好ましい。
【0124】
また、上記実施の形態では、被検者に音声モジュールを8回繰り返し発声させていたが、本開示はこれに限定されず、8とは異なる回数繰り返し発声させても良い。
【0125】
また、上記実施の形態では、第1窓長を標準発声時間以下、標準発声時間の1/3以上に設定していたが、本開示はこれに限定されず、標準発声時間以下である限り、第1窓長の下限値は任意に設定しても良い。また、上記実施の形態では、第2窓長は第1窓長より長く設定されれば良いので、区間が良好に検出できるように適宜設定しても良い。また、窓関数においては、例えば、ハニング窓のように、両端が滑らかに減衰するような窓関数を用いても良い。
【0126】
また、上記実施の形態では、有声破裂音が「で」であったが、本開示はこれに限定されず、音節の母音がeである、例えば「べ」、「げ」等、比較的発音しやすい音である限り、どのような音であっても良い。
【0127】
また、上記実施の形態では、有声破裂音が音声モジュールの先頭音節であったが、本開示はこれに限定されず、音声モジュールの先頭音節ではなくても良い。
【0128】
また、上記実施の形態では、有声弾音が「れ」であったが、本開示はこれに限定されず、比較的発音し難い音である限り、どのような音であっても良い。
【0129】
また、上記実施の形態では、音声波形の二乗平均平方根を算出することにより、第1線および第2線を算出していたが、別の方法で音声波形を平均化して第1線および第2線を算出しても良い。
【0130】
その他、上記実施の形態は、何れも本開示を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本開示の技術的範囲が限定的に解釈されてはならないものである。すなわち、本開示はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【産業上の利用可能性】
【0131】
本開示の構音障害検出装置は、構音障害を迅速に検出することが可能な構音障害検出装置および構音障害検出方法として有用である。
【符号の説明】
【0132】
100 構音障害検出装置
110 音声波形生成部
120 第1線生成部
130 第2線生成部
140 区間検出部
150 画像生成部
160 格納部
170 判定部
図1
図2
図3
図4
図5
図6A
図6B
図7
図8A
図8B
図9
図10A
図10B