(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-26
(45)【発行日】2024-10-04
(54)【発明の名称】推定方法、プログラムおよび推定装置
(51)【国際特許分類】
G10L 25/66 20130101AFI20240927BHJP
A61B 10/00 20060101ALI20240927BHJP
【FI】
G10L25/66
A61B10/00 H
(21)【出願番号】P 2023540233
(86)(22)【出願日】2022-07-19
(86)【国際出願番号】 JP2022028072
(87)【国際公開番号】W WO2023013402
(87)【国際公開日】2023-02-09
【審査請求日】2023-09-22
(31)【優先権主張番号】P 2021130009
(32)【優先日】2021-08-06
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】石丸 雅司
(72)【発明者】
【氏名】松村 吉浩
(72)【発明者】
【氏名】亀井 浩気
(72)【発明者】
【氏名】清崎 若正
(72)【発明者】
【氏名】張 亜明
(72)【発明者】
【氏名】欅田 雄輝
(72)【発明者】
【氏名】山村 拓也
【審査官】大野 弘
(56)【参考文献】
【文献】特許第6268628(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/66
A61B 10/00
(57)【特許請求の範囲】
【請求項1】
口腔機能または認知機能を推定する推定装置により実行される推定方法であって、
第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる前記第1の言語の第1言語文を、前記第1の言語を話す複数の人に対して発話させた音声を分析することで、前記第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得ステップと、
前記第2言語文を前記第2の言語を話す複数の人に対して発話させた音声を分析することで、前記第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得ステップと、
前記第1言語文を前記第1の言語を話す被験者に対して発話させた音声を分析することで、前記被験者の音声特徴量を取得する被験者音声特徴量取得ステップと、
前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記被験者の音声特徴量を補正する補正ステップと、
前記第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された前記被験者の音声特徴量から前記被験者の口腔機能または認知機能を推定する推定ステップと、
前記被験者の口腔機能または認知機能の推定結果を出力する出力ステップと、を含む、
推定方法。
【請求項2】
さらに、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記第1の言語を話す複数の人の音声特徴量群の分布を、前記第2の言語を話す複数の人の音声特徴量群の分布に合わせるための補正式を生成する補正式生成ステップを含み、
前記補正ステップでは、前記補正式を用いて前記被験者の音声特徴量を補正する、
請求項1に記載の推定方法。
【請求項3】
前記第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、
前記第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、
前記補正式生成ステップでは、音声特徴量の種類ごとに前記補正式を生成し、
前記補正ステップでは、音声特徴量の種類に応じて前記補正式を選択し、選択された前記補正式を用いて前記被験者の音声特徴量を補正する、
請求項2に記載の推定方法。
【請求項4】
前記補正式は、前記第1の言語を話す複数の人の音声特徴量群および前記第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布のパーセンタイル区間ごとに、前記第1の言語を話す複数の人の音声特徴量群の度数分布の度数を補正するための係数を含み、
前記補正ステップでは、前記被験者の音声特徴量を含むパーセンタイル区間に対応する前記係数を用いて、前記被験者の音声特徴量を補正する、
請求項2または3に記載の推定方法。
【請求項5】
前記補正式は、前記第1の言語を話す複数の人の音声特徴量群および前記第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布における平均および標準偏差を含み、
前記補正ステップでは、前記平均および前記標準偏差を用いて、前記被験者の音声特徴量を補正する、
請求項2または3に記載の推定方法。
【請求項6】
前記補正式生成ステップでは、前記第1の言語を話す複数の人の音声特徴量群および前記第2の言語を話す複数の人の音声特徴量群をそれぞれ対数変換し、対数変換後の前記第1の言語を話す複数の人の音声特徴量群と対数変換後の前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、対数変換後の前記第1の言語を話す複数の人の音声特徴量群の分布を、対数変換後の前記第2の言語を話す複数の人の音声特徴量群の分布に合わせるための前記補正式を生成し、
前記補正式は、対数変換後の前記第1の言語を話す複数の人の音声特徴量群および対数変換後の前記第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布における平均および標準偏差を含み、
前記補正ステップでは、前記被験者の音声特徴量を対数変換し、前記平均および前記標準偏差を用いて、対数変換後の前記被験者の音声特徴量を補正し、補正された対数変換後の前記被験者の音声特徴量を指数変換する、
請求項5に記載の推定方法。
【請求項7】
さらに、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係を学習することで、前記第1言語文を発話させた音声の音声特徴量を、前記第2言語文を発話させた音声の音声特徴量に近づけるための学習モデルを生成する学習モデル生成ステップを含み、
前記補正ステップでは、前記学習モデルを用いて前記被験者の音声特徴量を補正する、
請求項1に記載の推定方法。
【請求項8】
前記第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、
前記第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、
前記学習モデル生成ステップでは、音声特徴量の種類ごとに前記学習モデルを生成し、
前記補正ステップでは、音声特徴量の種類に応じて前記学習モデルを選択し、選択された前記学習モデルを用いて前記被験者の音声特徴量を補正する、
請求項7に記載の推定方法。
【請求項9】
さらに、前記推定結果と予め定められたデータとを照合することで、前記被験者に対する口腔機能または認知機能に関する提案を行う提案ステップを含む、
請求項1に記載の推定方法。
【請求項10】
請求項1に記載の推定方法をコンピュータに実行させるためのプログラム。
【請求項11】
口腔機能または認知機能を推定する推定装置であって、
第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる前記第1の言語の第1言語文を、前記第1の言語を話す複数の人に対して発話させた音声を分析することで、前記第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得部と、
前記第2言語文を前記第2の言語を話す複数の人に対して発話させた音声を分析することで、前記第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得部と、
前記第1の言語を話す被験者に対して、前記第1言語文を発話させた音声を分析することで、前記被験者の音声特徴量を取得する被験者音声特徴量取得部と、
前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記被験者の音声特徴量を補正する補正部と、
前記第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された前記被験者の音声特徴量から前記被験者の口腔機能または認知機能を推定する推定部と、
前記被験者の口腔機能または認知機能の推定結果を出力する出力部と、を備える、
推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、口腔機能または認知機能を推定できる推定方法、プログラムおよび推定装置に関する。
【背景技術】
【0002】
口腔機能または認知機能の低下に伴い、発話において障害が現れることが知られている。具体的には、口腔機能または認知機能の低下に伴い、発話速度が低下したり、ポーズ割合が増加したりする。特許文献1から特許文献3には、発話データから得られる音声特徴量を用いて口腔機能または認知機能を推定する技術が開示されている。これにより、口腔機能または認知機能を推定することができる。
【先行技術文献】
【特許文献】
【0003】
【文献】特許第6268628号公報
【文献】特許第6312014号公報
【文献】特許第6337362号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記特許文献1から特許文献3に開示された技術では、特定の言語(例えば日本語)に基づく推定処理が行われる。例えば、上記特定の言語とは異なる言語(例えば中国語)を話す人の口腔機能または認知機能を推定する場合には、上記特定の言語と類似した発音となる文を発話させて行われるが、類似した発音であったとしても、言語の違いによって音声特徴量に差異が現れ、口腔機能または認知機能の推定精度が低下するおそれがある。
【0005】
そこで、本発明は、特定の言語に基づく口腔機能または認知機能の推定処理を、特定の言語とは異なる言語に適用しても推定精度の低下を抑制できる推定方法などの提供を目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る推定方法は、口腔機能または認知機能を推定する推定装置により実行される推定方法であって、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる前記第1の言語の第1言語文を、前記第1の言語を話す複数の人に対して発話させた音声を分析することで、前記第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得ステップと、前記第2言語文を前記第2の言語を話す複数の人に対して発話させた音声を分析することで、前記第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得ステップと、前記第1言語文を前記第1の言語を話す被験者に対して発話させた音声を分析することで、前記被験者の音声特徴量を取得する被験者音声特徴量取得ステップと、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記被験者の音声特徴量を補正する補正ステップと、前記第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された前記被験者の音声特徴量から前記被験者の口腔機能または認知機能を推定する推定ステップと、前記被験者の口腔機能または認知機能の推定結果を出力する出力ステップと、を含む。
【0007】
また、本発明の一態様に係るプログラムは、上記の推定方法をコンピュータに実行させるためのプログラムである。
【0008】
また、本発明の一態様に係る推定装置は、口腔機能または認知機能を推定する推定装置であって、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる前記第1の言語の第1言語文を、前記第1の言語を話す複数の人に対して発話させた音声を分析することで、前記第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得部と、前記第2言語文を前記第2の言語を話す複数の人に対して発話させた音声を分析することで、前記第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得部と、前記第1の言語を話す被験者に対して、前記第1言語文を発話させた音声を分析することで、前記被験者の音声特徴量を取得する被験者音声特徴量取得部と、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記被験者の音声特徴量を補正する補正部と、前記第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された前記被験者の音声特徴量から前記被験者の口腔機能または認知機能を推定する推定部と、前記被験者の口腔機能または認知機能の推定結果を出力する出力部と、を備える。
【発明の効果】
【0009】
本発明の推定方法などによれば、特定の言語に基づく口腔機能または認知機能の推定処理を、特定の言語とは異なる言語に適用しても推定精度の低下を抑制できる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施の形態に係る推定システムの構成を示す図である。
【
図2】
図2は、中国語と日本語との母音の発音位置の違いを示す図である。
【
図3】
図3は、中国語と日本語との子音の時間長の違いを示す図である。
【
図4】
図4は、実施の形態に係る推定装置の特徴的な機能構成を示すブロック図である。
【
図5】
図5は、実施の形態に係る推定方法による被験者の口腔機能または認知機能を推定する処理手順を示すフローチャートである。
【
図6】
図6は、第1の補正方法による補正前後の、中国語を話す複数の人の音声特徴量群の分布の一例を示す図である。
【
図7】
図7は、第2の補正方法による補正前後の、中国語を話す複数の人の音声特徴量群の分布の一例を示す図である。
【
図8】
図8は、第3の補正方法による補正前後の、中国語を話す複数の人の音声特徴量群の分布の一例を示す図である。
【
図9】
図9は、中国語を話す複数の人の音声特徴量群の分布を、日本語を話す複数の人の音声特徴量群の分布に合わせるための、音声特徴量の種類ごとの補正式の一例を示す図である。
【発明を実施するための形態】
【0011】
以下、実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0012】
なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略または簡略化される場合がある。
【0013】
(実施の形態)
[推定システムの構成]
実施の形態に係る推定システム200の構成に関して説明する。
【0014】
図1は、実施の形態に係る推定システム200の構成を示す図である。
【0015】
推定システム200は、被験者Uの音声を解析することで被験者Uの口腔機能または認知機能を推定するためのシステムであり、
図1に示されるように、推定装置100と、携帯端末300とを備える。
【0016】
推定装置100は、携帯端末300によって、被験者Uが発した音声を示す音声データを取得し、取得した音声データから被験者Uの口腔機能または認知機能を推定する装置である。
【0017】
携帯端末300は、被験者Uが第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、または、母音、弾き音、破裂音、無声子音、促音および摩擦音の少なくとも1つを含む、文節または定型文を発話した音声を非接触により集音する集音装置であり、集音した音声を示す音声データを推定装置100へ出力する。例えば、携帯端末300は、マイクを有するスマートフォンまたはタブレット等である。なお、携帯端末300は、集音機能を有する装置であれば、スマートフォンまたはタブレット等に限らず、例えば、ノートPCなどであってもよい。また、推定システム200は、携帯端末300の代わりに、集音装置(マイク)を備えていてもよい。また、推定システム200は、被験者Uの個人情報を取得するための入力インターフェースを備えていてもよい。当該入力インターフェースは、例えば、キーボード、タッチパネルなどの入力機能を有するものであれば特に限定されない。また、推定システム200において、マイクの音量が設定されてもよい。
【0018】
携帯端末300は、ディスプレイを有し、推定装置100から出力される画像データに基づいた画像などを表示する表示装置であってもよい。なお、表示装置は携帯端末300でなくてもよく、液晶パネルまたは有機ELパネルなどによって構成されるモニタ装置であってもよい。つまり、本実施の形態では、携帯端末300が集音装置でもあり表示装置でもあるが、集音装置(マイク)と入力インターフェースと表示装置とが別体に設けられていてもよい。
【0019】
推定装置100と携帯端末300とは、有線で接続されていてもよいし、無線で接続されていてもよい。
【0020】
推定装置100は、携帯端末300によって集音された音声データに基づいて被験者Uの音声を分析し、分析した結果から被験者Uの口腔機能または認知機能を推定し、推定結果を出力する。例えば、推定装置100は、推定結果を示す画像を表示するための画像データ、もしくは、推定結果に基づいて生成された被験者Uに対する口腔機能または認知機能に関する提案をするためのデータを携帯端末300へ出力する。こうすることで、推定装置100は、被験者Uへ口腔機能または認知機能の程度や口腔機能または認知機能の低下の予防などをするための提案を通知できるため、例えば、被験者Uは口腔機能または認知機能の低下の予防や改善を行うことができる。
【0021】
なお、推定装置100は、例えば、パーソナルコンピュータであるが、サーバ装置であってもよい。また、推定装置100は、携帯端末300であってもよい。つまり、以下で説明する推定装置100が有する機能を携帯端末300が有していてもよい。
【0022】
例えば、推定装置100では、特定の言語(例えば日本語)に基づく推定処理が行われる。具体的には、推定装置100では、特定の言語の発話データを使って構築された機械学習モデルに基づく推定処理が行われる。このため、上記特定の言語とは異なる言語(例えば中国語)を話す人の口腔機能または認知機能を推定する場合には、上記特定の言語と類似した発音となる文を発話させて行われるが、類似した発音であったとしても、言語の違いによって音声特徴量に差異が現れる。ここで、言語による音声特徴量の違いについて
図2および
図3を用いて説明する。
【0023】
図2は、中国語と日本語との母音の発音位置の違いを示す図である。
図2の(a)は、中国語の母音の音声記号を示し、
図2の(b)は、日本語の母音の国際音声記号を示す。
【0024】
図3は、中国語と日本語との子音の時間長の違いを示す図である。
図3の(a)は、日本語で「ぱ」を発話したときの子音の時間長を示し、
図3の(b)は、中国語で「ぱ」を発話したときの子音の時間長を示す。
【0025】
図2に示す母音の国際音声記号の位置関係は、横方向は舌の前後の動きを示しており、縦方向は口の開閉の程度を示している。
図2の(a)および
図2の(b)に示されるように、中国語と日本語とで「a」の発音がされたとしても、舌の前後の動きおよび口の開閉の程度が異なっていることがわかる。このため、中国語と日本語とで類似する母音の発音をしたとしても、音声特徴量として、フォルマント周波数、フォルマント周波数の比およびフォルマント周波数の変化などが異なってくる。
【0026】
日本語の「ぱ」の子音部分である「p」は無気音であり、中国語の「ぱ」の子音部分である「p」は有気音であり、無気音と有気音とでは、子音部分の時間長が異なる。このため、
図3の(a)および
図3の(b)に示されるように、中国語と日本語とで「ぱ」の発音がされたとしても、子音部分の時間長が異なってくることがわかる。具体的には、日本語の「ぱ」の子音部分の時間長は10msとなり、中国語の「ぱ」の子音部分の時間長は40msとなっている。このため、中国語と日本語とで類似する子音の発音をしたとしても、音声特徴量として、音節時間長、音節の数および音節時間長変化などが異なってくる。
【0027】
したがって、特定の言語に基づく口腔機能または認知機能の推定処理を、特定の言語とは異なる言語に適用すると、言語の違いによる音声特徴量の差異によって口腔機能または認知機能の推定精度が低下するおそれがある。そこで、本発明では、特定の言語に基づく口腔機能または認知機能の推定処理を、特定の言語とは異なる言語に適用しても推定精度の低下を抑制できる推定方法および推定装置100について説明する。
【0028】
[推定装置の構成]
図4は、実施の形態に係る推定装置100の特徴的な機能構成を示すブロック図である。推定装置100は、第1音声特徴量群取得部10と、第2音声特徴量群取得部20と、生成部30と、記憶部40と、被験者音声特徴量取得部50と、補正部60と、推定部70と、出力部80と、提案部90とを備える。推定装置100は、プロセッサ、通信インターフェースおよびメモリなどを含むコンピュータである。メモリは、ROM(Read Only Memory)、RAM(Random Access Memory)、半導体メモリ、HDD(Hard Disk Drive)などであり、プロセッサにより実行されるプログラムを記憶することができる。第1音声特徴量群取得部10、第2音声特徴量群取得部20、生成部30、被験者音声特徴量取得部50、補正部60、推定部70、出力部80および提案部90は、メモリに格納されたプログラムを実行するプロセッサおよび通信インターフェースなどによって実現される。記憶部40は、メモリなどによって実現される。なお、記憶部40は、プログラムが記憶されたメモリとは別のメモリであってもよい。
【0029】
第1音声特徴量群取得部10は、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる第1の言語の第1言語文を、第1の言語を話す複数の人に対して発話させた音声を分析することで、第1の言語を話す複数の人の音声特徴量群(第1音声特徴量群とも呼ぶ)を取得する。
【0030】
第2音声特徴量群取得部20は、第2言語文を第2の言語を話す複数の人に対して発話させた音声を分析することで、第2の言語を話す複数の人の音声特徴量群(第2音声特徴量群とも呼ぶ)を取得する。
【0031】
生成部30は、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係に応じて、第1の言語を話す複数の人の音声特徴量群の分布を、第2の言語を話す複数の人の音声特徴量群の分布に合わせるための補正式を生成する。あるいは、生成部30は、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係を学習することで、第1言語文を発話させた音声の音声特徴量を、第2言語文を発話させた音声の音声特徴量に近づけるための学習モデルを生成する。
【0032】
記憶部40は、生成された補正式または学習モデルを記憶する。
【0033】
被験者音声特徴量取得部50は、第1言語文を第1の言語を話す被験者Uに対して発話させた音声を分析することで、被験者Uの音声特徴量を取得する。
【0034】
補正部60は、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係に応じて、被験者Uの音声特徴量を補正する。
【0035】
推定部70は、第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された被験者Uの音声特徴量から被験者Uの口腔機能または認知機能を推定する。
【0036】
出力部80は、被験者Uの口腔機能または認知機能の推定結果を出力する。
【0037】
提案部90は、推定結果と予め定められたデータとを照合することで、被験者Uに対する口腔機能または認知機能に関する提案を行う。予め定められたデータである提案データは、記憶部40に記憶されていてもよい。提案部90は、当該提案を携帯端末300へ出力する。
【0038】
なお、推定装置100は、被験者Uの個人情報を取得してもよい。例えば、個人情報は携帯端末300に入力された情報であり、年齢、体重、身長、性別、BMI(Body Mass Index)、歯科情報(例えば、歯の数、入れ歯の有無、咬合支持の場所、機能歯数、残存歯数など)、血清アルブミン値または喫食率などである。なお、個人情報は、EAT-10(イート・テン)と呼ばれる嚥下スクリーニングツール、聖隷式嚥下質問紙、問診、Barthel Indexまたは基本チェックリストなどにより取得されてもよい。個人情報は、記憶部40に記憶されていてもよい。また、提案部90は、個人情報についても提案データと照合して、被験者Uに対する口腔機能または認知機能に関する提案を行ってもよい。また、記憶部40には、提案内容を示す画像、動画、音声またはテキストなどのデータも記憶されていてもよい。また、記憶部40には、上記文節または定型文を発音することを指示するための指示用の画像が記憶されていてもよい。
【0039】
図示していないが、推定装置100は、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、または、母音、弾き音、破裂音、無声子音、促音および摩擦音の少なくとも1つを含む、文節または定型文を発音することを被験者Uに指示するための指示部を備えていてもよい。指示部は、具体的には、記憶部40に記憶された、上記文節または定型文を発音することを指示するための指示用の画像の画像データ、または、指示用の音声の音声データを取得し、当該画像データまたは当該音声データを携帯端末300に出力する。
【0040】
[推定方法の処理手順]
続いて、推定装置100により実行される推定方法における具体的な処理手順について説明する。
【0041】
図5は、実施の形態に係る推定方法による被験者Uの口腔機能または認知機能を推定する処理手順を示すフローチャートである。
図5に示されるように、推定方法は、事前準備フェーズ(ステップS11からステップS13)および推定フェーズ(ステップS14からステップS18)からなる。事前準備フェーズでは、補正式または学習モデルを生成するための処理が行われ、推定フェーズでは、被験者Uの口腔機能または認知機能を推定するための処理が行われる。なお、推定方法は推定装置100により実行されるため、
図5は、推定装置100の動作を示すフローチャートでもある。
【0042】
まず、第1音声特徴量群取得部10は、第1の言語とは異なる第2の言語で発話される第2言語文(文節または定型文)に類似した発音となる第1の言語の第1言語文(文節または定型文)を、第1の言語を話す複数の人に対して発話させた音声を分析することで、第1の言語を話す複数の人の音声特徴量群を取得する(ステップS11)。例えば、互いに異なる言語の文節または定型文であって、互いに発音が類似する文節または定型文の一例として、以下の表1から表4を示す。
【0043】
【0044】
【0045】
【0046】
【0047】
例えば、第1の言語は中国語であり、第2の言語は日本語である。なお、第1の言語および第2の言語の組み合わせは中国語および日本語に限らない。例えば、第1の言語は英語であり、第2の言語は日本語であってもよいし、その他の組み合わせであってもよい。
【0048】
このような第1言語文(例えば中国語の文節または定型文)を第1の言語(例えば中国語)を話す複数の人に対して発話させ、第1音声特徴量群取得部10は、第1の言語を話す複数の人のそれぞれの音声を分析することで、第1音声特徴量群を取得する。取得される音声特徴量の種類は、発話させる第1言語文の内容によるが、話速度、音圧較差、音圧較差変化、フォルマント周波数、フォルマント周波数の比、フォルマント周波数の変化、開口時間、閉口時間、破裂音の時間、調音時間長、ポーズ時間長標準偏差などがある。例えば、第1音声特徴量群取得部10は、第1の言語を話す複数の人として数十人分の音声特徴量を取得することで第1音声特徴量群を取得する。例えば、第1音声特徴量群取得部10は、音声特徴量の種類ごとに第1音声特徴量群を取得する。
【0049】
次に、第2音声特徴量群取得部20は、第2言語文を第2の言語を話す複数の人に対して発話させた音声を分析することで、第2の言語を話す複数の人の音声特徴量群を取得する(ステップS12)。発音が第1言語文と類似する第2言語文(例えば日本語の文節または定型文)を第2の言語(例えば日本語)を話す複数の人に対して発話させ、第2音声特徴量群取得部20は、第2の言語を話す複数の人のそれぞれの音声を分析することで、第2音声特徴量群を取得する。取得される音声特徴量の種類は、発話させる第2言語文の内容によるが、話速度、音圧較差、音圧較差変化、フォルマント周波数、フォルマント周波数の比、フォルマント周波数の変化、開口時間、閉口時間、破裂音の時間、調音時間長、ポーズ時間長標準偏差などがある。例えば、第2音声特徴量群取得部20は、第2の言語を話す複数の人として数十人分の音声特徴量を取得することで第2音声特徴量群を取得する。例えば、第2音声特徴量群取得部20は、音声特徴量の種類ごとに第2音声特徴量群を取得する。
【0050】
なお、ステップS11およびステップS12が行われる順序は、ステップS11、ステップS12の順序に限らず、ステップS12、ステップS11の順序であってもよい。
【0051】
次に、生成部30は、補正式または学習モデルを生成する(ステップS13)。以下では、まず、補正式が生成される場合のステップS13からステップS18までの処理を説明し、続いて、学習モデルが生成される場合のステップS13からステップS18までの処理を説明する。
【0052】
生成部30は、第1音声特徴量群と第2音声特徴量群との関係に応じて、第1音声特徴量群の分布を、第2音声特徴量群の分布に合わせるための補正式を生成する。例えば、生成部30は、3種類の補正式を生成する。まず、第1の補正式について説明する。
【0053】
例えば、生成部30は、第1音声特徴量群に含まれる複数の人のそれぞれの音声特徴量を小さい値から大きい値へと並び替え、一定の%刻みで分割する(例えば5%刻みで20個のパーセンタイル区間に分割する)。同じように、生成部30は、第2音声特徴量群に含まれる複数の人のそれぞれの音声特徴量を小さい値から大きい値へと並び替え、一定の%刻みで分割する(例えば5%刻みで20個のパーセンタイル区間に分割する)。
【0054】
そして、生成部30は、各パーセンタイル区間において係数(調整値)を算出する。係数は、各パーセンタイル区間における第2の言語を話す人の音声特徴量を第1の言語を話す人の音声特徴量で割った値である。例えば、5%タイルにおいて、第1の言語を話す人の音声特徴量(例えばモーラ時間長の平均)が707.5msであり、第2の言語を話す人の音声特徴量(例えばモーラ時間長の平均)が641.25msである場合、生成部30は、5%タイルより大きく10%タイル以下のパーセンタイル区間における係数を、641.25/707.5=0.90636と算出する。なお、第1の言語を話す人の音声特徴量が0となるパーセンタイル区間では、係数を1としてもよい。
【0055】
生成部30が算出した係数は、第1音声特徴量群の度数分布の度数を補正するための係数となる。第1の補正式は、第1音声特徴量群および第2音声特徴量群のそれぞれの度数分布のパーセンタイル区間ごとに、第1音声特徴量群の度数分布の度数を補正するための係数を含む。このようにして、生成部30は、第1音声特徴量群および第2音声特徴量群のそれぞれの度数分布のパーセンタイル区間ごとに、第1音声特徴量群の度数分布の度数を補正するための係数を含む第1の補正式を生成する。後述する
図6に示されるように、第1の補正式によって、第1音声特徴量群(すなわち、中国語を話す複数の人の音声特徴量群)の度数分布の度数が、補正前および補正後の各グラフに示されるように補正されていることがわかる。
【0056】
次に、第2の補正式について説明する。
【0057】
例えば、生成部30は、第1音声特徴量群および第2音声特徴量群のそれぞれの度数分布が正規分布であると仮定して、それぞれの度数分布における平均および標準偏差を算出する。そして、生成部30は、以下の式1に示す、第1音声特徴量群の分布を第2音声特徴量群の分布に合わせるための第2の補正式を生成する。
【0058】
{(第1の言語を話す人の音声特徴量-第1音声特徴量群の度数分布における平均)/第1音声特徴量群の度数分布における標準偏差)}×第2音声特徴量群の度数分布における標準偏差+第2音声特徴量群の度数分布における平均 (式1)
【0059】
このようにして、生成部30は、第1音声特徴量群および第2音声特徴量群のそれぞれの度数分布における平均および標準偏差を含む第2の補正式を生成する。後述する
図7に示されるように、第2の補正式によって、第1音声特徴量群(すなわち、中国語を話す複数の人の音声特徴量群)の度数分布の度数が、補正前および補正後の各グラフに示されるように補正されていることがわかる。
【0060】
次に、第3の補正式について説明する。
【0061】
例えば、生成部30は、第1音声特徴量群および第2音声特徴量群をそれぞれ対数変換する。次に、生成部30は、対数変換後の第1音声特徴量群および対数変換後の音声特徴量群のそれぞれの度数分布が正規分布であると仮定して、それぞれの度数分布における平均および標準偏差を算出する。そして、生成部30は、以下の式2に示す、対数変換後の第1音声特徴量群の分布を、対数変換後の第2音声特徴量群の分布に合わせるための第3の補正式を生成する。
【0062】
{(対数変換後の第1の言語を話す人の音声特徴量-対数変換後の第1音声特徴量群の度数分布における平均)/対数変換後の第1音声特徴量群の度数分布における標準偏差)}×対数変換後の第2音声特徴量群の度数分布における標準偏差+対数変換後の第2音声特徴量群の度数分布における平均 (式2)
【0063】
このようにして、生成部30は、対数変換後の第1音声特徴量群および対数変換後の第2音声特徴量群のそれぞれの度数分布における平均および標準偏差を含む第3の補正式を生成する。後述する
図8に示されるように、第3の補正式によって、対数変換後の第1音声特徴量群(すなわち、中国語を話す複数の人の対数変換後の音声特徴量群)の度数分布の度数が、補正前および補正後の各グラフに示されるように補正されていることがわかる。
【0064】
なお、第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、生成部30は、音声特徴量の種類ごとに補正式(第1の補正式、第2の補正式および第3の補正式)を生成してもよい。例えば、音声特徴量の種類として、母音「i」の第一フォルマント周波数(音声特徴量Aと呼ぶ)、音圧ピークの数(音声特徴量Bと呼ぶ)、発話時間(音声特徴量Cと呼ぶ)および音圧ピーク間隔の変動係数(音声特徴量Dと呼ぶ)がある場合、生成部30は、音声特徴量Aに対応する補正式(第1の補正式、第2の補正式および第3の補正式)、音声特徴量Bに対応する補正式(第1の補正式、第2の補正式および第3の補正式)、音声特徴量Cに対応する補正式(第1の補正式、第2の補正式および第3の補正式)および音声特徴量Dに対応する補正式(第1の補正式、第2の補正式および第3の補正式)を生成する。
【0065】
このように、事前準備フェーズにおいて、第1の言語を話す複数の人の第1音声特徴量群と、第2の言語を話す複数の人の第2音声特徴量群とを用いて補正式が生成される。
【0066】
そして、推定フェーズでは、事前準備フェーズにおいて生成された補正式を用いて第1の言語を話す被験者Uの口腔機能または認知機能が推定される。
【0067】
まず、被験者音声特徴量取得部50は、第1言語文を第1の言語を話す被験者Uに対して発話させた音声を分析することで、被験者Uの音声特徴量を取得する(ステップS14)。つまり、ステップS11で第1の言語を話す複数の人の第1音声特徴量群を取得する際に用いられた、第2言語文に類似した発音となる第1言語文を、第1の言語を話す被験者Uにも発話させて、被験者Uの音声特徴量を取得する。
【0068】
次に、補正部60は、第1音声特徴量群と第2音声特徴量群との関係に応じて、被験者Uの音声特徴量を補正する(ステップS15)。具体的には、補正部60は、事前準備フェーズにおいて生成された補正式を用いて被験者Uの音声特徴量を補正する。例えば、補正部60は、音声特徴量の種類に応じて補正式を選択し、選択された補正式を用いて被験者Uの音声特徴量を補正する。なお、音声特徴量の種類によっては、補正式を選択せず、被験者Uの音声特徴量を補正しなくてもよい。ここで、補正式の選択について
図6から
図9を用いて説明する。
【0069】
図6は、第1の補正方法による補正前後の、中国語を話す複数の人の音声特徴量群(第1音声特徴量群)の分布の一例を示す図である。第1の補正方法は、第1の補正式を用いた補正方法である。
【0070】
図6の(a)の左側には、音声特徴量Aについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図6の(a)の右側には、音声特徴量Aについての、第1の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0071】
図6の(b)の左側には、音声特徴量Bについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図6の(b)の右側には、音声特徴量Bについての、第1の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0072】
図6の(c)の左側には、音声特徴量Cについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図6の(c)の右側には、音声特徴量Cについての、第1の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0073】
図7は、第2の補正方法による補正前後の、中国語を話す複数の人の音声特徴量群(第1音声特徴量群)の分布の一例を示す図である。第2の補正方法は、第2の補正式を用いた補正方法である。
【0074】
図7の(a)の左側には、音声特徴量Aについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図7の(a)の右側には、音声特徴量Aについての、第2の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0075】
図7の(b)の左側には、音声特徴量Bについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図7の(b)の右側には、音声特徴量Bについての、第2の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0076】
図7の(c)の左側には、音声特徴量Cについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図7の(c)の右側には、音声特徴量Cについての、第2の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0077】
図8は、第3の補正方法による補正前後の、中国語を話す複数の人の音声特徴量群(第1音声特徴量群)の分布の一例を示す図である。第3の補正方法は、第3の補正式を用いた補正方法である。
【0078】
図8の(a)の左側には、音声特徴量Aについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図8の(a)の右側には、音声特徴量Aについての、第3の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0079】
図8の(b)の左側には、音声特徴量Bについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図8の(b)の右側には、音声特徴量Bについての、第3の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0080】
図8の(c)の左側には、音声特徴量Cについての、補正前の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示され、
図8の(c)の右側には、音声特徴量Cについての、第3の補正式での補正後の中国語を話す複数の人の音声特徴量群の分布と、日本語を話す複数の人の音声特徴量群とが示される。
【0081】
例えば、
図6から
図8の補正前後の第1音声特徴量群の分布を比較することで、音声特徴量の種類ごとに最適な補正式が選択される。例えば、補正により第1音声特徴量群の分布を第2音声特徴量群に最も類似させることができる補正式が選択される。類似度の判定方法は特に限定されないが、例えば、度数分布の尖度または歪度などを用いて類似度を判定することができる。選択の方法は、補正前後の各分布を人が確認して人が最適な補正式を選択してもよいし、補正前後の各分布を用いてコンピュータが自動で最適な補正式を選択してもよい。なお、補正前の第1音声特徴量群の分布が第2音声特徴量群に最も類似する場合には、すなわち、第1音声特徴量群の分布が補正によって第2音声特徴量群に類似しなくなった場合には、補正式は選択されなくてもよい。
【0082】
このようにして、
図9に示されるように、音声特徴量の種類ごとに補正式を選択することができる。
【0083】
図9は、中国語を話す複数の人の音声特徴量群(第1音声特徴量群)の分布を、日本語を話す複数の人の音声特徴量群(第2音声特徴量群)の分布に合わせるための、音声特徴量の種類ごとの補正式の一例を示す図である。
【0084】
例えば、音声特徴量Aについては、補正前の第1音声特徴量群の分布が第2音声特徴量群に最も類似しているため、補正式が選択されず、補正が行われない。
【0085】
例えば、音声特徴量Bについては、第2の補正式による補正により第1音声特徴量群の分布を第2音声特徴量群に最も類似させることができるため、第2の補正式が選択される。例えば、上記式1の「第2音声特徴量群の度数分布における平均」に「日本語_mean」の28.28333333を代入し、「第2音声特徴量群の度数分布における標準偏差」に「日本語_std」の4.171696964を代入し、「第1音声特徴量群の度数分布における平均」に「中国語_mean」の15.31428571を代入し、「第1音声特徴量群の度数分布における標準偏差」に「中国語_std」の4.584267685を代入した補正式が第2の補正式として選択される。そして、この補正式の「第1の言語を話す人の音声特徴量」に被験者Uの音声特徴量Bを代入することで、被験者Uの音声特徴量Bを補正することができる。このように、補正部60は、第1音声特徴量群および第2音声特徴量群のそれぞれの度数分布における平均および標準偏差を用いて、被験者Uの音声特徴量を補正する。
【0086】
例えば、音声特徴量Cについては、第1の補正式による補正により第1音声特徴量群の分布を第2音声特徴量群に最も類似させることができるため、第1の補正式が選択される。例えば、被験者Uの音声特徴量Cが14.822より大きく15.538以下の場合には、被験者Uの音声特徴量Cが5%タイルより大きく10%タイル以下のパーセンタイル区間に含まれるため、係数0.432026717を用いて被験者Uの音声特徴量Cが補正される。具体的には、被験者Uの音声特徴量Cに当該係数が掛けられて、被験者Uの音声特徴量Cが補正される。このように、補正部60は、被験者Uの音声特徴量を含むパーセンタイル区間に対応する係数を用いて、被験者Uの音声特徴量を補正する。なお、被験者Uの音声特徴量Cが、0%タイルより小さいパーセンタイル区間または100%タイルより大きいパーセンタイル区間に含まれる場合には、係数1が掛けられてもよい(すなわち補正されなくてもよい)。
【0087】
例えば、
図6から
図8で図示していないが、音声特徴量Dについては、第3の補正式による補正により第1音声特徴量群の分布を第2音声特徴量群に最も類似させることができ、第3の補正式が選択される。例えば、上記式2の「第2音声特徴量群の度数分布における平均」に「日本語_mean」の-2.153025672を代入し、「第2音声特徴量群の度数分布における標準偏差」に「日本語_std」の0.355037126を代入し、「第1音声特徴量群の度数分布における平均」に「中国語_mean」の-1.589782595を代入し、「第1音声特徴量群の度数分布における標準偏差」に「中国語_std」の0.645520591を代入した補正式が第3の補正式として選択される。そして、この補正式の「第1の言語を話す人の音声特徴量」に対数変換後の被験者Uの音声特徴量Dを代入することで、対数変換後の被験者Uの音声特徴量Dを補正することができる。さらに、補正された対数変換後の被験者Uの音声特徴量Dを指数変換することで、対数変換されていない、補正された被験者Uの音声特徴量Dを得ることができる。このように、補正部60は、被験者Uの音声特徴量Dを対数変換し、対数変換後の第1音声特徴量群および対数変換後の第2音声特徴量群のそれぞれの度数分布における平均および標準偏差を用いて、対数変換後の被験者Uの音声特徴量Dを補正し、補正された対数変換後の被験者Uの音声特徴量Dを指数変換する。
【0088】
図5での説明に戻り、推定部70は、第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された被験者Uの音声特徴量から被験者Uの口腔機能または認知機能を推定する(ステップS16)。第1の言語を話す被験者Uの音声特徴量は、補正されることで、第2の言語を話す人の音声特徴量に近づくため、補正された第1の言語を話す被験者Uの音声特徴量に対して、第2の言語に基づく口腔機能または認知機能の推定処理を用いることができ、被験者Uの音声特徴量から被験者Uの口腔機能または認知機能を精度良く推定することができる。
【0089】
例えば、第2の言語に基づく口腔機能の推定処理は、予め第2の言語を話す複数の人に対して行った評価結果を元に行われる処理である。具体的には、第2の言語を話す複数の人の音声特徴量を収集し、また、当該複数の人の口腔機能を実際に診断し、第2の言語を話す複数の人の音声特徴量と実際の診断結果との間の相関関係を用いて、被験者Uの口腔機能を推定できる。例えば、音声特徴量と診断結果との間の相関関係を表すために、機械学習を利用してもよい。機械学習の手法として、ロジスティクス回帰、SVM(Support Vector Machine)、ランダムフォレストなどがある。
【0090】
例えば、第2の言語に基づく認知機能の推定処理は、第2の言語を話す複数の人の音声特徴量(例えば、音声の高さに関連するピッチ、母音や子音の特徴に関連するフォルマント周波数、声道特性に関連するメル周波数スペクトラム係数(MFCC)など)に基づいて行う処理である。認知機能の推定には、例えば、ルールベース、機械学習の一手法であるSVM、ニューラルネットワークなどの学習モデルを用いることができる。例えば音声特徴量は、認知機能障害を推定することができる特徴量であり、音声の韻律的特徴を特定することができる特徴量であればよい。音声特徴量は、例えば、上述のようなピッチ、フォルマント周波数、メル周波数スペクトラム係数など、あるいはこれらの組み合わせを含む。
【0091】
次に、出力部80は、被験者Uの口腔機能または認知機能の推定結果(例えば、被験者Uの口腔機能または認知機能の状態など)を出力する(ステップS17)。例えば、出力部80は、推定結果を提案部90に出力する。
【0092】
また、出力部80は、推定結果を携帯端末300等に出力してもよい。これにより、被験者Uまたは被験者Uの関係者(家族、医者または介護者など)は、被験者Uの口腔機能または認知機能の状態を確認することができる。
【0093】
そして、提案部90は、推定結果と予め定められたデータとを照合することで、被験者Uに対する口腔機能または認知機能に関する提案を行う(ステップS18)。予め定められたデータ(提案データ)は、口腔機能または認知機能の状態ごとに提案内容が対応付けられたデータである。例えば、提案部90は、被験者Uの口腔機能または認知機能の状態に対して好ましい提案(例えば食事に関する提案または運動に関する提案など)を、記憶部40に記憶された提案内容を示す画像、動画、音声またはテキストなどのデータを用いて行う。
【0094】
以上、ステップS13において被験者Uの音声特徴量を補正するための補正式が生成される場合について説明したが、次に、ステップS13において被験者Uの音声特徴量を補正するための学習モデルが生成される場合について説明する。
【0095】
生成部30は、第1音声特徴量群と第2音声特徴量群との関係を学習することで、第1言語文を発話させた音声の音声特徴量を、第2言語文を発話させた音声の音声特徴量に近づけるための学習モデルを生成する。例えば、生成部30は、表1から表4に示されるような互いに発音が類似する第1言語文(例えば中国語の文節または定型文)および第2言語文(例えば日本語の文節または定型文)を発話した音声の音声特徴量をそれぞれ取得し、第1言語文に対応する音声特徴量を入力データとし、第2言語文に対応する音声特徴量を正解データとして学習を行うことで、学習モデルを生成することができる。
【0096】
なお、第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、生成部30は、音声特徴量の種類ごとに学習モデルを生成してもよい。例えば、音声特徴量の種類は、発話させる文節または定型文に対応しており、様々な文節または定型文を発話させることで、様々な種類の音声特徴量を取得でき、音声特徴量の種類ごとに学習モデルを生成することができる。例えば、音声特徴量の種類として、音声特徴量Aから音声特徴量Dがある場合、生成部30は、音声特徴量Aに対応する学習モデル、音声特徴量Bに対応する学習モデル、音声特徴量Cに対応する学習モデルおよび音声特徴量Dに対応する学習モデルを生成する。なお、1つの学習モデルに対して複数の種類の音声特徴量が対応していてもよい。
【0097】
補正式が生成される場合と同じように、ステップS14において被験者Uの音声特徴量が取得される。
【0098】
ステップS15において、補正部60は、事前準備フェーズで生成された学習モデルを用いて被験者Uの音声特徴量を補正する。例えば、補正部60は、音声特徴量の種類に応じて学習モデルを選択し、選択された学習モデルを用いて被験者Uの音声特徴量を補正する。
【0099】
そして、補正式が生成される場合と同じように、ステップS16からステップS18までの処理が行われる。
【0100】
[効果など]
以上説明したように、本実施の形態に係る推定方法は、口腔機能または認知機能を推定する推定装置100により実行される方法であって、
図5に示されるように、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる第1の言語の第1言語文を、第1の言語を話す複数の人に対して発話させた音声を分析することで、第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得ステップ(ステップS11)と、第2言語文を第2の言語を話す複数の人に対して発話させた音声を分析することで、第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得ステップ(ステップS12)と、第1言語文を第1の言語を話す被験者Uに対して発話させた音声を分析することで、被験者Uの音声特徴量を取得する被験者音声特徴量取得ステップ(ステップS14)と、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係に応じて、被験者Uの音声特徴量を補正する補正ステップ(ステップS15)と、第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された被験者Uの音声特徴量から被験者Uの口腔機能または認知機能を推定する推定ステップ(ステップS16)と、被験者Uの口腔機能または認知機能の推定結果を出力する出力ステップ(ステップS17)と、を含む。
【0101】
第1音声特徴量群と、第2音声特徴量群とには、言語の違いによる差異が現れる。これに対して、第1音声特徴量群と第2音声特徴量群との関係に応じて、第1音声特徴量群と第2音声特徴量群との差異が小さくなるように第1音声特徴量群を補正することができる。そして、第1の言語を話す被験者Uの音声特徴量も同じように補正することで、第1の言語を話す被験者Uの音声特徴量を、第2の言語を話す人の音声特徴量へと補正することができる。このため、補正された第1の言語を話す被験者Uの音声特徴量に対して、第2の言語に基づく口腔機能または認知機能の推定処理を用いることができ、第2の言語を話す人の音声特徴量と同じように、第1の言語を話す被験者Uの口腔機能または認知機能を推定できる。このように、特定の言語に基づく口腔機能または認知機能の推定処理を、特定の言語とは異なる言語に適用しても推定精度の低下を抑制できる。
【0102】
例えば、推定方法は、さらに、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係に応じて、第1の言語を話す複数の人の音声特徴量群の分布を、第2の言語を話す複数の人の音声特徴量群の分布に合わせるための補正式を生成する補正式生成ステップ(
図5のステップS13)を含み、補正ステップでは、補正式を用いて被験者Uの音声特徴量を補正してもよい。
【0103】
これによれば、第1音声特徴量群と第2音声特徴量群との関係に応じて、第1音声特徴量群の分布を、第2音声特徴量群の分布に合わせるための補正式を生成でき、当該補正式によって、被験者Uの音声特徴量を、第2の言語を話す人の音声特徴量へと近づけるように補正することができる。
【0104】
例えば、第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、補正式生成ステップでは、音声特徴量の種類ごとに補正式を生成し、補正ステップでは、音声特徴量の種類に応じて補正式を選択し、選択された補正式を用いて被験者Uの音声特徴量を補正してもよい。
【0105】
音声特徴量には、話速度、音圧較差、音圧較差変化、フォルマント周波数、フォルマント周波数の比、フォルマント周波数の変化、開口時間、閉口時間、破裂音の時間、調音時間長、ポーズ時間長標準偏差など様々な種類があり、音声特徴量の種類によって推定可能な口腔機能または認知機能が異なっている。また、音声特徴量の種類によって最適な補正式が異なっている。そこで、音声特徴量の種類に応じて最適な補正式を選択し、選択された補正式を用いて被験者Uの音声特徴量を補正することで、音声特徴量の種類に応じた口腔機能または認知機能を推定できる。
【0106】
例えば、補正式は、第1の言語を話す複数の人の音声特徴量群および第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布のパーセンタイル区間ごとに、第1の言語を話す複数の人の音声特徴量群の度数分布の度数を補正するための係数を含み、補正ステップでは、被験者Uの音声特徴量を含むパーセンタイル区間に対応する係数を用いて、被験者Uの音声特徴量を補正してもよい。
【0107】
このように、第1音声特徴量群と第2音声特徴量群との差異はパーセンタイル区間ごとに傾向があるため、被験者Uの音声特徴量を含むパーセンタイル区間に対応する係数を用いて被験者Uの音声特徴量を補正することで、被験者Uの音声特徴量を、第2の言語を話す人の音声特徴量へと補正することができる。
【0108】
例えば、補正式は、第1の言語を話す複数の人の音声特徴量群および第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布における平均および標準偏差を含み、補正ステップでは、当該平均および当該標準偏差を用いて、被験者Uの音声特徴量を補正してもよい。
【0109】
このように、第1音声特徴量群および第2音声特徴量群のそれぞれの度数分布における平均および標準偏差を用いることで、第1音声特徴量群の分布を、第2音声特徴量群の分布に合わせることができる。
【0110】
例えば、補正式生成ステップでは、第1の言語を話す複数の人の音声特徴量群および第2の言語を話す複数の人の音声特徴量群をそれぞれ対数変換し、対数変換後の第1の言語を話す複数の人の音声特徴量群と対数変換後の第2の言語を話す複数の人の音声特徴量群との関係に応じて、対数変換後の第1の言語を話す複数の人の音声特徴量群の分布を、対数変換後の第2の言語を話す複数の人の音声特徴量群の分布に合わせるための補正式を生成し、補正式は、対数変換後の第1の言語を話す複数の人の音声特徴量群および対数変換後の第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布における平均および標準偏差を含み、補正ステップでは、被験者Uの音声特徴量を対数変換し、当該平均および当該標準偏差を用いて、対数変換後の被験者Uの音声特徴量を補正し、補正された対数変換後の被験者Uの音声特徴量を指数変換してもよい。
【0111】
このように、対数変換および指数変換を用いることで、補正の精度を高め得る場合がある。
【0112】
例えば、推定方法は、さらに、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係を学習することで、第1言語文を発話させた音声の音声特徴量を、第2言語文を発話させた音声の音声特徴量に近づけるための学習モデルを生成する学習モデル生成ステップ(
図5のステップS13)を含み、補正ステップでは、学習モデルを用いて被験者Uの音声特徴量を補正してもよい。
【0113】
これによれば、第1音声特徴量群と第2音声特徴量群との関係を学習することで、第1言語文を発話させた音声の音声特徴量を、第2言語文を発話させた音声の音声特徴量に近づけることができる学習モデルを生成でき、当該学習モデルによって、被験者Uの音声特徴量を、第2の言語を話す人の音声特徴量へと近づけるように補正することができる。
【0114】
例えば、第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、学習モデル生成ステップでは、音声特徴量の種類ごとに学習モデルを生成し、補正ステップでは、音声特徴量の種類に応じて学習モデルを選択し、選択された学習モデルを用いて被験者Uの音声特徴量を補正してもよい。
【0115】
音声特徴量には様々な種類があり、音声特徴量の種類によって推定可能な口腔機能または認知機能が異なっている。また、音声特徴量の種類によって最適な学習モデルが異なっている。そこで、音声特徴量の種類に応じて最適な学習モデルを選択し、選択された学習モデルを用いて被験者Uの音声特徴量を補正することで、音声特徴量の種類に応じた口腔機能または認知機能を推定できる。
【0116】
例えば、推定方法は、さらに、推定結果と予め定められたデータとを照合することで、被験者Uに対する口腔機能または認知機能に関する提案を行う提案ステップを含んでいてもよい。
【0117】
これによれば、被験者Uなどは、口腔機能または認知機能が低下したときにどのような対策をすればよいかの提案を受けることができる。
【0118】
本実施の形態に係る推定装置100は、口腔機能または認知機能を推定する装置であって、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる第1の言語の第1言語文を、第1の言語を話す複数の人に対して発話させた音声を分析することで、第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得部10と、第2言語文を第2の言語を話す複数の人に対して発話させた音声を分析することで、第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得部20と、第1の言語を話す被験者Uに対して、第1言語文を発話させた音声を分析することで、被験者Uの音声特徴量を取得する被験者音声特徴量取得部50と、第1の言語を話す複数の人の音声特徴量群と第2の言語を話す複数の人の音声特徴量群との関係に応じて、被験者Uの音声特徴量を補正する補正部60と、第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された被験者Uの音声特徴量から被験者Uの口腔機能または認知機能を推定する推定部70と、被験者Uの口腔機能または認知機能の推定結果を出力する出力部80と、を備える。
【0119】
これによれば、特定の言語に基づく口腔機能または認知機能の推定処理を、特定の言語とは異なる言語に適用しても推定精度の低下を抑制できる推定装置100を提供できる。
【0120】
(その他の実施の形態)
以上、実施の形態に係る推定方法などについて説明したが、本発明は、上記実施の形態に限定されるものではない。
【0121】
例えば、口腔機能または認知機能の推定結果は、個人情報と共にビッグデータとして蓄積されて、機械学習に用いられてもよい。また、口腔機能または認知機能に関する提案内容は、個人情報と共にビッグデータとして蓄積されて、機械学習に用いられてもよい。
【0122】
例えば、上記実施の形態では、推定方法は、口腔機能または認知機能に関する提案を行う提案ステップ(ステップS18)を含んでいたが、含んでいなくてもよい。言い換えると、推定装置100は、提案部90を備えていなくてもよい。
【0123】
例えば、推定方法におけるステップは、コンピュータ(コンピュータシステム)によって実行されてもよい。そして、本発明は、それらの方法に含まれるステップを、コンピュータに実行させるためのプログラムとして実現できる。さらに、本発明は、そのプログラムを記録したCD-ROM等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。
【0124】
例えば、本発明が、プログラム(ソフトウェア)で実現される場合には、コンピュータのCPU、メモリおよび入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、CPUがデータをメモリまたは入出力回路等から取得して演算したり、演算結果をメモリまたは入出力回路等に出力したりすることによって、各ステップが実行される。
【0125】
また、上記実施の形態の推定装置100に含まれる各構成要素は、専用または汎用の回路として実現されてもよい。
【0126】
また、上記実施の形態の推定装置100に含まれる各構成要素は、集積回路(IC:Integrated Circuit)であるLSI(Large Scale Integration)として実現されてもよい。
【0127】
また、集積回路はLSIに限られず、専用回路または汎用プロセッサで実現されてもよい。プログラム可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続および設定が再構成可能なリコンフィギュラブル・プロセッサが、利用されてもよい。
【0128】
さらに、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、推定装置100に含まれる各構成要素の集積回路化が行われてもよい。
【0129】
その他、実施の形態に対して当業者が思いつく各種変形を施して得られる形態や、本発明の趣旨を逸脱しない範囲で各実施の形態における構成要素および機能を任意に組み合わせることで実現される形態も本発明に含まれる。
【0130】
なお、本明細書には少なくとも以下の事項が記載されている。
【0131】
(1)口腔機能または認知機能を推定する推定装置により実行される推定方法であって、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる前記第1の言語の第1言語文を、前記第1の言語を話す複数の人に対して発話させた音声を分析することで、前記第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得ステップと、前記第2言語文を前記第2の言語を話す複数の人に対して発話させた音声を分析することで、前記第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得ステップと、前記第1言語文を前記第1の言語を話す被験者に対して発話させた音声を分析することで、前記被験者の音声特徴量を取得する被験者音声特徴量取得ステップと、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記被験者の音声特徴量を補正する補正ステップと、前記第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された前記被験者の音声特徴量から前記被験者の口腔機能または認知機能を推定する推定ステップと、前記被験者の口腔機能または認知機能の推定結果を出力する出力ステップと、を含む推定方法。
【0132】
(2)さらに、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記第1の言語を話す複数の人の音声特徴量群の分布を、前記第2の言語を話す複数の人の音声特徴量群の分布に合わせるための補正式を生成する補正式生成ステップを含み、前記補正ステップでは、前記補正式を用いて前記被験者の音声特徴量を補正する、(1)に記載の推定方法。
【0133】
(3)前記第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、前記第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、前記補正式生成ステップでは、音声特徴量の種類ごとに前記補正式を生成し、前記補正ステップでは、音声特徴量の種類に応じて前記補正式を選択し、選択された前記補正式を用いて前記被験者の音声特徴量を補正する、(2)に記載の推定方法。
【0134】
(4)前記補正式は、前記第1の言語を話す複数の人の音声特徴量群および前記第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布のパーセンタイル区間ごとに、前記第1の言語を話す複数の人の音声特徴量群の度数分布の度数を補正するための係数を含み、前記補正ステップでは、前記被験者の音声特徴量を含むパーセンタイル区間に対応する前記係数を用いて、前記被験者の音声特徴量を補正する、(2)または(3)に記載の推定方法。
【0135】
(5)前記補正式は、前記第1の言語を話す複数の人の音声特徴量群および前記第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布における平均および標準偏差を含み、前記補正ステップでは、前記平均および前記標準偏差を用いて、前記被験者の音声特徴量を補正する、(2)または(3)に記載の推定方法。
【0136】
(6)前記補正式生成ステップでは、前記第1の言語を話す複数の人の音声特徴量群および前記第2の言語を話す複数の人の音声特徴量群をそれぞれ対数変換し、対数変換後の前記第1の言語を話す複数の人の音声特徴量群と対数変換後の前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、対数変換後の前記第1の言語を話す複数の人の音声特徴量群の分布を、対数変換後の前記第2の言語を話す複数の人の音声特徴量群の分布に合わせるための前記補正式を生成し、前記補正式は、対数変換後の前記第1の言語を話す複数の人の音声特徴量群および対数変換後の前記第2の言語を話す複数の人の音声特徴量群のそれぞれの度数分布における平均および標準偏差を含み、前記補正ステップでは、前記被験者の音声特徴量を対数変換し、前記平均および前記標準偏差を用いて、対数変換後の前記被験者の音声特徴量を補正し、補正された対数変換後の前記被験者の音声特徴量を指数変換する、(5)に記載の推定方法。
【0137】
(7)さらに、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係を学習することで、前記第1言語文を発話させた音声の音声特徴量を、前記第2言語文を発話させた音声の音声特徴量に近づけるための学習モデルを生成する学習モデル生成ステップを含み、前記補正ステップでは、前記学習モデルを用いて前記被験者の音声特徴量を補正する、(1)に記載の推定方法。
【0138】
(8)前記第1言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、前記第2言語文を発話させた音声の音声特徴量には複数種類の音声特徴量が含まれ、前記学習モデル生成ステップでは、音声特徴量の種類ごとに前記学習モデルを生成し、前記補正ステップでは、音声特徴量の種類に応じて前記学習モデルを選択し、選択された前記学習モデルを用いて前記被験者の音声特徴量を補正する、(7)に記載の推定方法。
【0139】
(9)さらに、前記推定結果と予め定められたデータとを照合することで、前記被験者に対する口腔機能または認知機能に関する提案を行う提案ステップを含む、(1)~(8)のいずれかに記載の推定方法。
【0140】
(10)(1)~(9)のいずれかに記載の推定方法をコンピュータに実行させるためのプログラム。
【0141】
(11)口腔機能または認知機能を推定する推定装置であって、第1の言語とは異なる第2の言語で発話される第2言語文に類似した発音となる前記第1の言語の第1言語文を、前記第1の言語を話す複数の人に対して発話させた音声を分析することで、前記第1の言語を話す複数の人の音声特徴量群を取得する第1音声特徴量群取得部と、前記第2言語文を前記第2の言語を話す複数の人に対して発話させた音声を分析することで、前記第2の言語を話す複数の人の音声特徴量群を取得する第2音声特徴量群取得部と、前記第1の言語を話す被験者に対して、前記第1言語文を発話させた音声を分析することで、前記被験者の音声特徴量を取得する被験者音声特徴量取得部と、前記第1の言語を話す複数の人の音声特徴量群と前記第2の言語を話す複数の人の音声特徴量群との関係に応じて、前記被験者の音声特徴量を補正する補正部と、前記第2の言語に基づく口腔機能または認知機能の推定処理を用いて、補正された前記被験者の音声特徴量から前記被験者の口腔機能または認知機能を推定する推定部と、前記被験者の口腔機能または認知機能の推定結果を出力する出力部と、を備える、推定装置。
【符号の説明】
【0142】
10 第1音声特徴量群取得部
20 第2音声特徴量群取得部
30 生成部
40 記憶部
50 被験者音声特徴量取得部
60 補正部
70 推定部
80 出力部
90 提案部
100 推定装置
U 被験者