特許7381054 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人甲南学園の特許一覧

特許7381054発話訓練システム、発話訓練方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-07

(45)【発行日】2023-11-15

(54)【発明の名称】発話訓練システム、発話訓練方法及びプログラム

(51)【国際特許分類】

G09B 19/04 20060101AFI20231108BHJP

G09B 5/02 20060101ALI20231108BHJP

G09B 19/00 20060101ALI20231108BHJP

G06T 7/20 20170101ALI20231108BHJP

G09B 21/00 20060101ALN20231108BHJP

【ＦＩ】

G09B19/04

G09B5/02

G09B19/00 H

G06T7/20 300B

G09B21/00 G

【請求項の数】 7

(21)【出願番号】P 2019148071

(22)【出願日】2019-08-09

(65)【公開番号】P2019197236

(43)【公開日】2019-11-14

【審査請求日】2022-06-17

(73)【特許権者】

【識別番号】397022911

【氏名又は名称】学校法人甲南学園

(74)【代理人】

【識別番号】100124039

【弁理士】

【氏名又は名称】立花顕治

(74)【代理人】

【識別番号】100179213

【弁理士】

【氏名又は名称】山下未知子

(74)【代理人】

【識別番号】100170542

【弁理士】

【氏名又は名称】桝田剛

(72)【発明者】

【氏名】北村達也

【審査官】佐々木祐

(56)【参考文献】

【文献】特開２０１２－０４７９９８（ＪＰ，Ａ）

【文献】特開２００１－１６７２８３（ＪＰ，Ａ）

【文献】特開２０１３－０８８５５２（ＪＰ，Ａ）

【文献】韓国公開特許第１０－２０１２－００４２１６６（ＫＲ，Ａ）

【文献】特開２００２－１５０２９１（ＪＰ，Ａ）

【文献】国際公開第２０１４／０８７５７１（ＷＯ，Ａ１）

【文献】国際公開第２０１５／００８５０２（ＷＯ，Ａ１）

【文献】特開２０１２－０７３２９９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０９Ｂ１／００－９／５６

Ｇ０９Ｂ１７／００－１９／２６

Ｇ０９Ｂ２３／００－２９／１４

Ｇ０６Ｔ７／２０

(57)【特許請求の範囲】

【請求項1】

被訓練者の発話訓練に用いられる発話訓練システムであって、
前記被訓練者の顔を撮像し、動画像データを生成する撮像手段と、
前記動画像データが示す動画像を表示する表示手段と、
前記動画像データに基づいて、前記被訓練者の顔の筋肉の動き量である筋活動量を推定する筋活動量推定部と、
前記筋活動量推定部によって推定された前記筋活動量が第１所定量よりも小さい状態が所定時間継続したしたか否かを判定する筋活動量判定部と、
マイクによって前記被訓練者が発した声から生成された音声データに基づいて、前記被訓練者が発した声の特徴量を抽出する音声特徴抽出部と、
前記音声特徴抽出部によって抽出された前記声の特徴量が第２所定量より小さい状態が前記所定時間継続したか否かを判定する音声特徴量判定部と、
を備え、
前記表示手段は、前記被訓練者の口の動きの量を示す画像を前記動画像に重畳して表示し、
前記表示手段は、
前記筋活動量判定部により前記筋活動量が前記第１所定量よりも小さい状態が前記所定時間継続したと判定されると、第１警告メッセージをさらに表示し、
前記音声特徴量判定部により前記声の特徴量が前記第２所定量よりも小さい状態が前記所定時間継続したと判定されると、第２警告メッセージをさらに表示する、
発話訓練システム。

【請求項2】

前記表示手段は、前記被訓練者に音読させる文章をさらに表示する、請求項１に記載の発話訓練システム。

【請求項3】

前記表示手段は、前記被訓練者の発話に関する評価結果をさらに表示する、請求項１又は請求項２に記載の発話訓練システム。

【請求項4】

前記口の動きの量を示す画像は、前記口が移動した軌跡を示す線である、請求項１から請求項３のいずれか１項に記載の発話訓練システム。

【請求項5】

前記動画像データに基づいてオプティカルフローを算出する算出手段と、
前記オプティカルフローに基づいて前記口の動きの量を示す画像を生成する生成手段とをさらに備える、請求項１から請求項４のいずれか１項に記載の発話訓練システム。

【請求項6】

発話に関して被訓練者を訓練する発話訓練方法であって、
前記被訓練者の顔を撮像し、動画像データを生成するステップと、
前記動画像データが示す動画像を表示するステップと、
前記動画像データに基づいて、前記被訓練者の顔の筋肉の動き量である筋活動量を推定するステップと、
前記筋活動量を推定するステップにて推定された前記筋活動量が第１所定量よりも小さい状態が所定時間継続したしたか否かを判定する第１判定ステップと、
前記被訓練者の口の動きの量を示す画像を前記動画像に重畳して表示するステップと、
マイクによって前記被訓練者が発した声から生成された音声データに基づいて、前記被訓練者が発した声の特徴量を抽出するステップと、
抽出された前記声の特徴量が第２所定量より小さい状態が前記所定時間継続したか否かを判定する第２判定ステップと、
前記第１判定ステップにて前記筋活動量が前記第１所定量よりも小さい状態が前記所定時間継続したと判定されると、第１警告メッセージをさらに表示し、また、前記第２判定ステップにて前記声の特徴量が前記第２所定量よりも小さい状態が前記所定時間継続したと判定されると、第２警告メッセージをさらに表示するステップと、
を含む、発話訓練方法。

【請求項7】

被訓練者の発話訓練に用いられるプログラムであって、
撮像手段に、前記被訓練者の顔を撮像させ、動画像データを生成させるステップと、
表示手段に、前記動画像データが示す動画像を表示させるステップと、
前記動画像データに基づいて、前記被訓練者の顔の筋肉の動き量である筋活動量を推定するステップと、
前記筋活動量を推定するステップにて推定された前記筋活動量が第１所定量よりも小さい状態が所定時間継続したしたか否かを判定する第１判定ステップと、
前記表示手段に、前記被訓練者の口の動きの量を示す画像を前記動画像に重畳して表示させるステップと、
マイクによって前記被訓練者が発した声から生成された音声データに基づいて、前記被訓練者が発した声の特徴量を抽出するステップと、
抽出された前記声の特徴量が第２所定量より小さい状態が前記所定時間継続したか否かを判定する第２判定ステップと、
前記第１判定ステップにて前記筋活動量が前記第１所定量よりも小さい状態が前記所定時間継続したと判定されると、第１警告メッセージをさらに表示し、また、前記第２判定ステップにて前記声の特徴量が前記第２所定量よりも小さい状態が前記所定時間継続したと判定されると、第２警告メッセージをさらに表示するステップと、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、発話訓練システム、発話訓練方法及びプログラムに関する。

【背景技術】

【0002】

特開平７－３１９３８０号公報（特許文献１）は、発声訓練装置を開示する。この発声訓練装置においては、被訓練者の発声の調音法とモデル発声の調音法とのずれに基づく指示文が被訓練者にフィードバックされる。この発声訓練装置によれば、被訓練者は、指示文に従って訓練を進めることで調音法の矯正を効果的に行なうことができる（特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開平７－３１９３８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記特許文献１に開示されている発声訓練装置においては、被訓練者が発声した音声に基づいて被訓練者へのフィードバックが行なわれている。しかしながら、被訓練者が発声した音声に基づいたフィードバックのみでは、必ずしも被訓練者の発話訓練が効果的に行なわれないことを本発明者は見出した。

【0005】

本発明は、このような問題を解決するためになされたものであって、その目的は、より効果的に被訓練者の発話訓練を行なうことが可能な発話訓練システム、発話訓練方法及びプログラムを提供することである。

【課題を解決するための手段】

【0006】

本発明のある局面に従う発話訓練システムは、被訓練者の発話訓練に用いられる。発話訓練システムは、撮像手段と、表示手段とを備える。撮像手段は、被訓練者の顔を撮像し、動画像データを生成する。表示手段は、動画像データが示す動画像を表示する。表示手段は、被訓練者の口の動きの量を示す画像を動画像に重畳して表示する。

【0007】

本発明者は、口の周りの筋肉を大きく動かすことを意識して発話訓練を行なうと、音声器官の可動域が広がり、被訓練者が発する音声の明瞭性が向上することを見出した。この発話訓練システムによれば、被訓練者の口の動きの量を示す画像が動画像に重畳して表示されるため、口の動きが不十分か否かを被訓練者に視覚的に認識させることができる。その結果、この発話訓練システムによれば、被訓練者が口の周りの筋肉を大きく動かすことを意識して発話訓練を行なうことができるため、より効果的に被訓練者の発話訓練を行なうことができる。

【0008】

上記発話訓練システムにおいて、表示手段は、被訓練者に音読させる文章をさらに表示してもよい。

【0009】

この発話訓練システムによれば、被訓練者に音読させる文章が表示されるため、被訓練者は、表示される文章を音読するだけで発話訓練を行なうことができる。

【0010】

上記発話訓練システムにおいて、表示手段は、被訓練者の発話に関する評価結果をさらに表示してもよい。

【0011】

この発話訓練システムによれば、被訓練者の発話に関する評価結果が表示されるため、被訓練者は、評価結果を確認しながら発話訓練を行なうことができる。

【0012】

上記発話訓練システムにおいて、表示手段は、被訓練者の発話が所定要件を満たさない場合に、警告メッセージをさらに表示してもよい。

【0013】

この発話訓練システムによれば、被訓練者の発話が所定要件を満たさない場合に警告メッセージが表示されるため、被訓練者は、自らの発話が所定要件を満たしていないことを視覚的に認識することができる。

【0014】

上記発話訓練システムにおいて、口の動きの量を示す画像は、口が移動した軌跡を示す線であってもよい。

【0015】

上記発話訓練システムは、動画像データに基づいてオプティカルフローを算出する算出手段と、オプティカルフローに基づいて口の動きの量を示す画像を生成する生成手段とをさらに備えてもよい。

【0016】

本発明の別の局面に従う発話訓練方法は、発話に関して被訓練者を訓練する。発話訓練方法は、被訓練者の顔を撮像し、動画像データを生成するステップと、動画像データが示す動画像を表示するステップと、被訓練者の口の動きの量を示す画像を動画像に重畳して表示するステップとを含む。

【0017】

この発話訓練方法によれば、被訓練者の口の動きの量を示す画像が動画像に重畳して表示されるため、口の動きが不十分か否かを被訓練者に視覚的に認識させることができる。その結果、この発話訓練方法によれば、より効果的に被訓練者の発話訓練を行なうことができる。

【0018】

本発明の別の局面に従うプログラムは、被訓練者の発話訓練に用いられる。プログラムは、撮像手段に、被訓練者の顔を撮像させ、動画像データを生成させるステップと、表示手段に、動画像データが示す動画像を表示させるステップと、表示手段に、被訓練者の口の動きの量を示す画像を動画像に重畳して表示させるステップとをコンピュータに実行させる。

【0019】

このプログラムがコンピュータによって実行されると、被訓練者の口の動きの量を示す画像が動画像に重畳して表示されるため、口の動きが不十分か否かを被訓練者に視覚的に認識させることができる。その結果、このプログラムによれば、より効果的に被訓練者の発話訓練を行なうことができる。

【発明の効果】

【0020】

本発明によれば、より効果的に被訓練者の発話訓練を行なうことが可能な発話訓練システム、発話訓練方法及びプログラムを提供することができる。

【図面の簡単な説明】

【0021】

【図1】スマートフォンを用いた発話訓練風景の一例を示す図である。

【図2】スマートフォンのハードウェア構成の一例を示す図である。

【図3】制御部によって実現される各ソフトウェアモジュールの関係の一例を示す図である。

【図4】動画表示処理の実行手順を示すフローチャートである。

【図5】ディスプレイに表示される画像の一例を示す図である。

【図6】オプティカルフロー表示処理の実行手順を示すフローチャートである。

【図7】筋活動量表示処理の実行手順を示すフローチャートである。

【図8】音声特徴量表示処理の実行手順を示すフローチャートである。

【図9】警告メッセージ表示処理の実行手順を示すフローチャートである。

【図10】ディスプレイに表示される画像の一例を示す図である。

【図11】訓練前後に録音した音声の振幅を示す図である。

【図12】訓練前後に録音した音声の基本周波数の変化幅を示す図である。

【図13】訓練前後に計測したＶＡＳを示す図である。

【発明を実施するための形態】

【0022】

以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一又は相当部分には同一符号を付してその説明は繰り返さない。

【0023】

［１．概要］
本発明者の調査によって、健常者である大学生及び大学院生の約３割が発話のしにくさを自覚していることが分かった。本発明者が種々の発話訓練方法を試したところ、被訓練者が細い棒を咥えた状態で発話訓練を行なうことによって、高い訓練効果が得られる可能性があることが分かった。特に、本発明者は、発話訓練時に、被訓練者が大きい声を出すとともに顔面の筋肉をしっかりと動かすことによって高い訓練効果が得られることを見出した。

【0024】

図１は、本実施の形態に従うスマートフォン１００を用いた発話訓練風景の一例を示す図である。図１に示されるように、発話訓練において、被訓練者１０は、棒２０を咥えた状態で発声する。被訓練者１０は、スマートフォン１００に表示される画像を見ながら発話訓練を行なう。詳細については後述するが、スマートフォン１００には、大きい声を出すとともに顔面の筋肉をしっかりと動かすように被訓練者１０に促す画像が表示される。以下、スマートフォン１００の詳細について説明する。

【0025】

［２．ハードウェア構成］
図２は、スマートフォン１００のハードウェア構成の一例を示す図である。図２に示されるように、スマートフォン１００は、カメラ１３０と、ディスプレイ１４０と、マイク１５０と、スピーカ１６０と、制御部１７０と、記憶部１８０と、通信モジュール１９０とを含んでいる。スマートフォン１００に含まれる各構成要素は、バスを介して電気的に接続されている。

【0026】

カメラ１３０は、被写体像を撮像し、画像データを生成するように構成されている。カメラ１３０は、たとえば、被訓練者１０（図１）を撮像し、動画像データを生成する。カメラ１３０は、たとえば、ＣＭＯＳイメージセンサ又はＣＣＤイメージセンサ等のイメージセンサを含んでいる。

【0027】

ディスプレイ１４０は、画像を表示するように構成されている。ディスプレイ１４０は、たとえば、カメラ１３０によって生成された動画像データが示す動画像を表示する。ディスプレイ１４０は、たとえば、液晶ディスプレイ又は有機ＥＬディスプレイ等のディスプレイによって構成される。

【0028】

マイク１５０は、マイク１５０の周囲の音に基づいて音声データを生成するように構成されている。マイク１５０は、たとえば、被訓練者１０が発した声に基づいて音声データを生成する。

【0029】

スピーカ１６０は、音声データが示す音声を出力するように構成されている。スピーカ１６０は、たとえば、被訓練者１０の声に基づいて生成された音声データが示す音を出力する。

【0030】

制御部１７０は、ＣＰＵ（Central Processing Unit）１７２、ＲＡＭ（Random Access Memory）１７４及びＲＯＭ（Read Only Memory）１７６等を含み、情報処理に応じて各構成要素の制御を行なうように構成されている。

【0031】

記憶部１８０は、たとえば、フラッシュメモリ等のメモリである。記憶部１８０は、たとえば、制御プログラム１８１を記憶するように構成されている。制御プログラム１８１は、制御部１７０によって実行されるスマートフォン１００の制御プログラムである。制御部１７０が制御プログラム１８１を実行する場合に、制御プログラム１８１は、ＲＡＭ１７４に展開される。そして、制御部１７０は、ＲＡＭ１７４に展開された制御プログラム１８１をＣＰＵ１７２によって解釈及び実行することにより、各構成要素を制御する。

【0032】

通信モジュール１９０は、外部機器と通信するように構成されている。通信モジュール１９０は、たとえば、ＬＴＥ（Long Term Evolution）モジュール、無線ＬＡＮモジュール等で構成される。

【0033】

［３．ソフトウェア構成］
図３は、制御部１７０によって実現される各ソフトウェアモジュールの関係の一例を示す図である。図３に示されるように、顔領域抽出部１３１、画素移動量算出部１３２、顔移動量補正部１３３、筋活動量推定部１３４、第１判定部１３５、音声特徴抽出部１５１及び第２判定部１５２の各々は、ソフトウェアモジュールであり、制御部１７０が制御プログラム１８１を実行することによって実現されている。

【0034】

顔領域抽出部１３１は、カメラ１３０によって生成された動画像データに基づいて、被訓練者１０の顔に対応する領域を抽出するように構成されている。顔領域の抽出方法としては、公知の種々の方法が用いられる。

【0035】

画素移動量算出部１３２は、カメラ１３０によって生成された動画像データに基づいて、各領域のオプティカルフローを算出するように構成されている。オプティカルフローの算出方法としては、公知の種々の方法が用いられる。ここで、各領域は、画像に含まれる各画素によって構成されてもよいし、画像に含まれる複数画素によって構成されてもよい。また、画素移動量算出部１３２は、領域毎に、算出されたオプティカルフローの大きさを示す画像を生成し、生成された画像をディスプレイ１４０に出力する。

【0036】

顔移動量補正部１３３は、顔領域抽出部１３１によって抽出された顔領域の移動量及び移動方向を算出し、画素移動量算出部１３２によって算出されたオプティカルフローから減算するように構成されている。これにより、顔の移動量を差し引いた、顔面の筋肉の動きを示すオプティカルフローを算出することができる。

【0037】

筋活動量推定部１３４は、各領域のオプティカルフローの大きさの和を算出することによって、被訓練者１０の顔面の筋肉の動き量を推定するように構成されている。すなわち、筋活動量推定部１３４は、被訓練者１０の口の動き量を推定するように構成されている。推定された顔面の筋肉の動き量（各領域のオプティカルフローの大きさの和）は、ディスプレイ１４０に出力される。

【0038】

第１判定部１３５は、筋活動量推定部１３４によって推定された顔面の筋肉の動き量が第１所定量より小さい状態が所定時間継続したか否かを判定するように構成されている。第１所定量は、顔面の筋肉の動き量がこれよりも小さい場合に期待される発話訓練効果が得られない値である。顔面の筋肉の動き量が第１所定量よりも小さい状態が所定時間継続した場合に、第１警告画像がディスプレイ１４０に出力される。

【0039】

音声特徴抽出部１５１は、マイク１５０によって生成された音声データに基づいて、被訓練者１０が発した声の特徴量を抽出するように構成されている。音声特徴抽出部１５１は、たとえば、被訓練者１０が発した声の大きさを抽出する。また、音声特徴抽出部１５１は、抽出された声の大きさを示す画像を生成し、生成された画像をディスプレイ１４０に出力する。

【0040】

第２判定部１５２は、音声特徴抽出部１５１によって抽出された声の特徴量が第２所定量より小さい状態が所定時間継続したか否かを判定するように構成されている。第２所定量は、声の特徴量がこれよりも小さい場合に期待される発話訓練効果が得られない値である。声の特徴量が第２所定量よりも小さい状態が所定時間継続した場合に、第２警告画像がディスプレイ１４０に出力される。

【0041】

［４．動作］
本実施の形態に従うスマートフォン１００においては、制御部１７０によって、動画表示処理、オプティカルフロー表示処理、筋活動量表示処理、音声特徴量表示処理及び警告メッセージ表示処理が並列的に実行されている。以下、各処理について順に説明する。

【0042】

（４－１．動画表示処理）
図４は、動画表示処理の実行手順を示すフローチャートである。このフローチャートに示される処理は、予め定められた周期で実行される。

【0043】

図４を参照して、制御部１７０は、被訓練者１０の顔を含む動画像を撮像し動画像データを生成するとともに、被訓練者１０の声を含む音声データを生成するようにカメラ１３０及びマイク１５０をそれぞれ制御する（ステップＳ１００）。制御部１７０は、生成された動画像データに基づいて、動画に含まれる顔領域を抽出する（ステップＳ１１０）。制御部１７０は、被訓練者１０に読ませる文章、抽出された顔領域を囲む枠、及び、動画像データが示す動画を重畳して表示するようにディスプレイ１４０を制御する（ステップＳ１２０）。被訓練者１０に読ませる文章を示すテキストデータは、たとえば、記憶部１８０（図２）に予め記憶されている。

【0044】

図５は、ディスプレイ１４０に表示される画像の一例を示す図である。図５に示されるように、ディスプレイ１４０には、被訓練者１０を含む動画、被訓練者１０の顔領域を囲む顔枠２００、及び、被訓練者１０に読ませる文章２１０が表示されている。スマートフォン１００によれば、被訓練者１０に音読させる文章２１０がディスプレイ１４０に表示されるため、被訓練者１０は、表示される文章を音読するだけで発話訓練を行なうことができる。

【0045】

（４－２．オプティカルフロー表示処理）
図６は、オプティカルフロー表示処理の実行手順を示すフローチャートである。このフローチャートに示される処理は、予め定められた周期で実行される。

【0046】

図６を参照して、制御部１７０は、動画表示処理において生成された動画像データに基づいて、各領域のオプティカルフローを算出する（ステップＳ２００）。制御部１７０は、領域毎に、オプティカルフローの大きさ及び方向を示す画像を生成する（ステップＳ２１０）。制御部１７０は、生成された画像を動画に重畳表示するようにディスプレイ１４０を制御する（ステップＳ２２０）。

【0047】

再び図５を参照して、ディスプレイ１４０においては、被訓練者１０の口が移動した軌跡を示す線２４０（オプティカルフロー）の画像が動画に重畳表示される。スマートフォン１００によれば、被訓練者１０の口の動きの量を示す画像が動画像に重畳して表示されるため、口の動きが不十分か否かを被訓練者１０に視覚的に認識させることができる。その結果、スマートフォン１００によれば、被訓練者１０が口の周りの筋肉を大きく動かすことを意識して発話訓練を行なうことができるため、より効果的に被訓練者１０の発話訓練を行なうことができる。

【0048】

（４－３．筋活動量表示処理）
図７は、筋活動量表示処理の実行手順を示すフローチャートである。このフローチャートに示される処理は、予め定められた周期で実行される。

【0049】

図７を参照して、制御部１７０は、動画表示処理において生成された動画像データに基づいて、被訓練者１０の顔領域を抽出するとともに、顔領域の動き（大きさ及び方向）を抽出する（ステップＳ３００）。制御部１７０は、オプティカルフロー表示処理において算出されたオプティカルフローから、ステップＳ３００において抽出された顔領域の動きを減算することによって、オプティカルフローの補正を行なう（ステップＳ３１０）。制御部１７０は、各領域の補正後のオプティカルフローの大きさの和を算出することによって、被訓練者１０の顔面の筋肉の動き量（以下、「筋活動量」とも称する。）を推定する（ステップＳ３２０）。制御部１７０は、推定された顔面の筋肉の動き量（各領域のオプティカルフローの大きさの和）を示す画像を生成し、該画像を表示するようにディスプレイ１４０を制御する（ステップＳ３３０）。

【0050】

再び図５を参照して、ディスプレイ１４０においては、レベルメータ２２０のような顔面の筋肉の動き量を示す画像が動画に重畳表示される。スマートフォン１００によれば、被訓練者１０の発話に関する評価結果（たとえば、口を含む顔面の筋肉の動き量）がディスプレイ１４０に表示されるため、被訓練者１０は、評価結果を確認しながら発話訓練を行なうことができる。

【0051】

（４－４．音声特徴量表示処理）
図８は、音声特徴量表示処理の実行手順を示すフローチャートである。このフローチャートに示される処理は、予め定められた周期で実行される。

【0052】

図８を参照して、制御部１７０は、動画表示処理において生成された音声データに基づいて、被訓練者１０の声の特徴量（たとえば、大きさ）を抽出する（ステップＳ４００）。制御部１７０は、抽出された声の特徴量を示す画像を生成し、該画像を表示するようにディスプレイ１４０を制御する（ステップＳ４１０）。

【0053】

再び図５を参照して、ディスプレイ１４０においては、レベルメータ２３０のような声の特徴量を示す画像が動画に重畳表示される。スマートフォン１００によれば、被訓練者１０の発話に関する評価結果（たとえば、声の大きさ）がディスプレイ１４０に表示されるため、被訓練者１０は、評価結果を確認しながら発話訓練を行なうことができる。

【0054】

（４－５．警告メッセージ表示処理）
図９は、警告メッセージ表示処理の実行手順を示すフローチャートである。このフローチャートに示される処理は、予め定められた周期で実行される。

【0055】

図９を参照して、制御部１７０は、筋活動量表示処理において推定された筋活動量が第１所定量よりも小さい状態が所定時間継続したか否かを判定する（ステップＳ５００）。筋活動量が第１所定量以上であると判定されると（ステップＳ５００においてＮＯ）、処理はステップＳ５１０に移行する。一方、筋活動量が第１所定量よりも小さい状態が所定時間継続したと判定されると（ステップＳ５００においてＹＥＳ）、制御部１７０は、第１警告画像を表示するようにディスプレイ１４０を制御する（ステップＳ５１０）。

【0056】

図１０は、ディスプレイ１４０に表示される画像の一例を示す図である。図１０に示されるように、筋活動量が第１所定量よりも小さい状態が所定時間継続した場合には、第１警告画像２５０（「もっと口を動かして！」）がディスプレイ１４０に表示される。スマートフォン１００によれば、被訓練者１０の発話が所定要件を満たさない場合に第１警告画像２５０が表示されるため、被訓練者１０は、自らの発話が所定要件を満たしていないことを視覚的に認識することができる。

【0057】

再び図９を参照して、次に、制御部１７０は、音声特徴量表示処理において抽出された音声特徴量が第２所定量よりも小さい状態が所定時間継続したか否かを判定する（ステップＳ５２０）。音声特徴量が第２所定量以上であると判定されると（ステップＳ５２０においてＮＯ）、処理はステップＳ５００に移行する。一方、音声特徴量が第２所定量よりも小さい状態が所定時間継続したと判定されると（ステップＳ５２０においてＹＥＳ）、制御部１７０は、第２警告画像を表示するようにディスプレイ１４０を制御する（ステップＳ５３０）。

【0058】

再び図１０を参照して、音声特徴量が第２所定量よりも小さい状態が所定時間継続した場合には、第２警告画像２６０（「もっと大きな声で！」）がディスプレイ１４０に表示される。スマートフォン１００によれば、被訓練者１０の発話が所定要件を満たさない場合に第２警告画像２６０が表示されるため、被訓練者１０は、自らの発話が所定要件を満たしていないことを視覚的に認識することができる。

【0059】

［５．特徴］
以上のように、本実施の形態に従うスマートフォン１００において、ディスプレイ１４０は、被訓練者１０の口の動きの量を示す画像を動画像に重畳して表示する。スマートフォン１００によれば、被訓練者１０の口の動きの量を示す画像が動画像に重畳して表示されるため、口の動きが不十分か否かを被訓練者１０に視覚的に認識させることができる。その結果、スマートフォン１００によれば、被訓練者１０が口の周りの筋肉を大きく動かすことを意識して発話訓練を行なうことができるため、より効果的に被訓練者１０の発話訓練を行なうことができる。

【0060】

なお、スマートフォン１００は、「発話訓練システム」の一例であり、カメラ１３０は、「撮像手段」の一例であり、ディスプレイ１４０は、「表示手段」の一例である。また、画素移動量算出部１３２は、「算出手段」及び「生成手段」の一例である。

【0061】

［６．実験］
本発明者は、以下の実験を行なった。本実験は、防音室で行なわれた。実験に先立ち、実験参加者に実験の説明を行なった。次に、実験参加者に発話訓練の意義を説明し、意欲を持って実験に参加するよう依頼した。声量や話速は、高校の教室で朗読することをイメージするよう指示した。音声収録及び発話訓練は立位にて行った。訓練時は、ＰＣ（Personal Computer）のディスプレイ（EIZO EV2450）を実験参加者の顔の正面にくるよう配置し、正面を向いた状態で練習できるようにした。なお、本実験においては、上記実施の形態に従うスマートフォン１００において実装されたアプリケーションがＰＣにインストールされている。

【0062】

実験では、まず実験参加者の訓練前の音声を録音し、ＶＡＳ（Visual analog scale）にてその発話がどの程度うまくできたかを自己評価させた。続いて，前歯で割り箸を噛んだ状態で，上記ＰＣ（発話訓練システム）を用いて３分間練習した。その後、訓練後の音声を収録し、再びＶＡＳを計測した。音声はコンデンサマイクロフォン(SonyECM-77B)とレコーダ(Marantz PMD671)とを用いて標本化周波数16 kHz、量子化16 bitにて収録した。

【0063】

図１１は、訓練前後に録音した音声の振幅を示す図である。図１２は、訓練前後に録音した音声の基本周波数の変化幅を示す図である。これらの結果は、各実験参加者の１４文の平均値の分布を示している。図１１及び図１２に示されるように、上記発話訓練システムを用いた訓練によって振幅と基本周波数の変化幅がともに上昇する傾向にあることがわかる。訓練前後の中央値の比較では，振幅が４．３ｄＢ、基本周波数の変化幅が１．１９semitone上昇した。図は示さないが、基本周波数の平均値も訓練後に上昇する傾向にあった。

【0064】

図１３は、訓練前後に計測したＶＡＳを示す図である。図１３に示されるように、ほぼ全ての実験参加者が、訓練によってうまく読めるようになったという自覚を持った。実験後には「ハキハキ言えるようになった」、「サ行，タ行が良くなった」、「(口の) 横の筋肉が動きやすくなった」などの肯定的なコメントが多く聞かれた。顔面の動きをフィードバックすることにより、わずか３分間の練習でも口の動きを改善する効果があったと考えられる。

【0065】

［７．変形例］
以上、実施の形態について説明したが、本発明は、上記実施の形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。以下、変形例について説明する。

【0066】

（７－１）
上記実施の形態においては、筋活動量を示す画像（口の動きの量を示す画像）として線２４０が用いられた。しかしながら、筋活動量を示す画像は、線２４０に限定されない。筋活動量を示す画像は、たとえば、動きの方向及び大きさを示す矢印であってもよい。また、筋活動量を示すために、たとえば、動き量が多い部分と動き量が小さい部分とで色を異ならせてもよい。たとえば、動き量が大きい領域は赤色で表現し、動き量が小さい領域は青色で表現してもよい。

【0067】

（７－２）
上記実施の形態においては、カメラ１３０によって撮像された動画像全体のオプティカルフローが算出された。しかしながら、オプティカルフローが算出される範囲はこれに限定されない。たとえば、被訓練者１０の顔領域のみのオプティカルフローが算出されてもよいし、被訓練者１０の顔の下半分の領域のみのオプティカルフローが算出されてもよいし、被訓練者１０の口領域のみのオプティカルフローが算出されてもよい。オプティカルフローを算出する領域を絞ることで、制御部１７０による計算量を減らすことができる。

【0068】

（７－３）
上記実施の形態においては、被訓練者１０の画像及び音声を用いて発話訓練が行われた。しかしながら、被訓練者１０の音声は、必ずしも発話訓練に用いられる必要はない。

【0069】

（７－４）
上記実施の形態においては、被訓練者１０の口の動き量を得るためにオプティカルフローが算出された。しかしながら、必ずしもオプティカルフローが算出されなくてもよい。たとえば、単に動画像におけるフレーム間の差分を算出することによって、被訓練者１０の口の動き量が得られてもよい。

【0070】

（７－５）
上記実施の形態においては、スマートフォンにおいて発話訓練システムが実現されたが、本発明に従う発話訓練システムは、たとえば、ＰＣ、タブレット等によって実現されてもよい。

【0071】

（７－６）
上記実施の形態において、発話訓練中に、ディスプレイ１４０に講師の手本動画があわせて表示されてもよい。

【0072】

（７－７）
上記実施の形態においては、被訓練者１０の顔の領域毎のオプティカルフローが算出されている。したがって、たとえば、被訓練者１０の顔の何れの領域の動きが不足しているかを算出することも可能である。たとえば、被訓練者１０の顔の何れの領域の動きが不足しているかを示す警告画像がディスプレイ１４０に表示されてもよい。

【0073】

（７－８）
上記実施の形態において、たとえば、被訓練者１０の発話訓練の履歴が順次記憶部１８０に記憶されてもよい。これにより、たとえば、被訓練者１０が新たに発話訓練を行なった場合に、前回と比較してどの部分が改善されたか、どの部分が悪くなったか等を被訓練者１０に知らせることができる。

【符号の説明】

【0074】

１０被訓練者、２０棒、１００スマートフォン、１３０カメラ、１３１顔領域抽出部、１３２画素移動量算出部、１３３顔移動量補正部、１３４筋活動量推定部、１３５第１判定部、１４０ディスプレイ、１５０マイク、１５１音声特徴抽出部、１５２第２判定部、１６０スピーカ、１７０制御部、１７２ＣＰＵ、１７４ＲＡＭ、１７６ＲＯＭ、１８０記憶部、１８１制御プログラム、１９０通信モジュール、２００顔枠、２１０文章、２２０，２３０レベルメータ、２４０線、２５０第１警告画像、２６０第２警告画像。

【図1】