【実施例1】
【0028】
学習支援サーバ1は、ネットワーク4に接続されたコンピュータであって、学習者端末3からの要求に応じて学習者の語学学習を支援する処理手段10と、処理手段10を機能させるためのプログラムや音声などのデータを記憶する記憶手段20と、を有する。
【0029】
処理手段10は、学習支援サーバ1内に設けられた中央演算処理装置(CPU)、及びこのCPUの動作手順を規定する一又は二以上のプログラムによって機能する。記憶手段20は、例えばROMやRAMなどのメモリ及びハードディスクを備えている。記憶手段20は、処理手段10の各種処理を実行するためのプログラムなどが格納されるプログラム領域20aと、音声データなどのデータを記憶するデータ領域20bと、を有している。
【0030】
本実施例において、記憶手段20は、学習対象である二以上の言語について発音の手本となる単語及びセンテンスの手本音声を記憶した音声記憶手段21と、学習者毎に学習した単語及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段22と、を有している。また、記憶手段20は、発音の正確性の評価を行うための情報として、学習言語の音素が持っている周波数特性を表した音響モデル記憶手段23と、学習言語の単語と音響モデルを結びつける辞書モデル記憶手段24と、学習言語の音素の並び方に関する制約を表した言語モデル記憶手段25と、を有している。
【0031】
学習者端末3は、ネットワーク4に接続可能なパーソナルコンピュータ、タブレット端末、スマートフォンなどの端末である。学習者端末3は、アニメーションなどの画像を表示する表示部31と、例えばマイクとスピーカの組み合わせからなる音入出力部32と、を備え、ネットワーク4を介して学習支援サーバ1にアクセス可能な端末であればよい。
【0032】
図1に示す本実施例において、処理手段10は、音声送信手段11と、音声取得手段12と、音声解析手段13と、評価送信手段14と、成績作成手段15と、カリキュラム作成手段16と、を有している。
【0033】
音声送信手段11は、ネットワーク4を介して学習者端末3に、音声記憶手段21に記憶された手本音声を送信して音入出力部32から出力させると共に、該手本音声に対応するアニメーションを送信して表示部31に表示させ、学習者に該手本音声と該アニメーションを関連付けて知覚させる。このアニメーションには、学習対象の言語に関する文字情報を含まない。
【0034】
本実施例において、音声送信手段11は、学習者端末3の表示部31に教師オブジェクトと共に、手本音声に対応する画像(例えば「りんご」の画像)を含むアニメーションを表示させる。音声送信手段11は、教師オブジェクトが手本音声に対応する画像を指しながら、音入出力部32から手本音声(ここでは「apple」の音声)を出力させ、学習者に手本音声とアニメーション又はアニメーションに含まれる画像(ここでは「りんご」の画像)を関連付けて知覚させる。このとき、表示部31には、学習対象の言語に関する文字(ここでは「apple」の文字)は表示されない。
【0035】
音声取得手段12は、ネットワーク4を介して学習者端末3に、上記の手本音声に対応するアニメーションを送信して表示部31に表示させ、学習者にアニメーション又はアニメーションに含まれる画像に対応する単語又はセンテンス(ここでは「apple」)の発話を要求する。音声取得手段12は、音入出力部32からネットワーク4を介して学習者の発する学習者音声を取得する。音声取得手段12は、アニメーションにおいて、例えば教師オブジェクトが手本音声に対応する「りんご」の画像を指しながら、発話を要求することが好ましい。このときも、表示部31には、学習対象の言語に関する「apple」の文字は表示されない。
【0036】
音声解析手段13は、ネットワーク4を介して学習者端末3から取得した学習者音声を解析して、学習者を特定すると共に、発音の正確性を評価する。本実施例において、音声解析手段13は、音声認証によって、学習者音声から学習者を特定する。各学習者の声紋は、記憶手段20の学習状況記憶手段22に学習者の氏名などの情報と共に記憶されている。
【0037】
本実施例において、音声解析手段13は、音声をA/D変換して音声信号を生成する音声信号生成手段131と、生成された音声信号を分割する前処理手段132と、音声の周波数特性を抽出する音声特徴抽出手段133と、音声から言葉の特定又は話者の特定をする音声認識手段134と、発音の正確性を評価する発音評価手段135と、を有する。
【0038】
音声信号生成手段131は、学習者端末3でA/D変換され、学習支援サーバ1が取得した音声データから必要箇所をサンプリングし、量子化する。前処理手段132は、音声信号を増幅処理し、フレーム分割して窓かけ処理を行う。音声特徴抽出手段133は、音声信号を高速フーリエ変換(FFT処理)してメルフィルタバンクをかけて対数値を算出し、離散コサイン変換(DCT変換)と一階差分変換を行って音声の周波数特性を抽出する。
【0039】
音声認識手段134は、音声の周波数特性を記憶手段20に記憶された各学習者の声紋と照合して学習者を特定する学習者特定手段と、音声の周波数特性から言葉にデコードするデコード手段と、を有する。発音評価手段135は、記憶手段20に記憶された音響モデル、辞書モデル及び言語モデルに基づいて、音の正確性を評価する音響スコアと、言語の正確性を評価する言語スコアと、を算出して、学習者の発音の正確性を評価し、この評価を学習状況記憶手段22に記憶する。
【0040】
評価送信手段14は、音声解析手段13が評価した発音の正確性の評価を表す画像を学習者端末3に送信する。この評価を表す画像は、文字を含まないことが好ましく、例えばグラフやマークで評価内容を表してもよい。また、この評価を表す画像は、アニメーションの中で表示してもよく、学習者の発話に対して教師オブジェクトがジェスチャーで評価を表すことが最も好ましい。本実施例において、評価送信手段14は、発音の正確性の評価が所定の基準値を満たした場合にのみ、該評価を表す画像を学習者端末3に送信する。一方、発音の正確性の評価が所定の基準値を満たさない場合は、音声送信手段11が学習者端末3に手本音声及び該手本音声に対応するアニメーションを繰り返し送信し、学習者に該手本音声と該アニメーション又はアニメーションに含まれる画像を関連付けて知覚させる。
【0041】
本実施例において、音声記憶手段21は、それぞれの単語及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備えている。音声送信手段11は、学習者端末3に手本音声を繰り返し送信する際に、前に送信した手本音声の話者とは異なる話者の手本音声を送信する手段を備えている。音声送信手段11は、同じ単語又はセンテンスを繰り返し送信するときに、送信する度に話者を変えてもよく、2〜3回に一度話者を変えてもよい。
【0042】
成績作成手段15は、学習状況記憶手段22に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成し、この成績を学習状況記憶手段22に記憶する。また、成績作成手段15は、学習者端末3に作成した成績を送信する。なお、成績作成手段15は、学習者端末3に代えて、又は、学習者端末3に加えて保護者用の端末に成績を送信してもよい。
【0043】
カリキュラム作成手段16は、学習状況記憶手段22に記憶された成績に基づいて学習者毎の学習カリキュラムを作成し、この学習カリキュラムを学習状況記憶手段22に記憶する。なお、カリキュラム作成手段16は、語学学習中の発音の正確性に基づいて、学習カリキュラムを修正してもよい。
【0044】
本実施例において、処理手段10は、学習者毎の成績に基づいて各学習者を複数の学習レベルに層別し、学習レベルが同じ層又は学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するためのアニメーションを学習者端末3に送信し、複数の学習者に音声での会話を行わせる学習者交流手段17を備えていることが好ましい。この場合でも、音声解析手段13は、学習者音声を解析して学習者を特定すると共に、発音の正確性を評価し、誤った発音に対しては指摘をするように構成している。
【0045】
なお、本発明の語学学習システムの構成は、実施例の形態に限定されるものではなく、他の様々な実施形態を採用してもよい。
【0046】
[語学学習の流れ]
以下、
図3乃至
図5を参照しながら、本実施例に係る語学学習システムの動作について説明する。
図3は、本発明に係る語学学習システムの個人認証の一例を示すフローチャートである。
図4は、本発明に係る語学学習システムの学習支援の一例を示すフローチャートである。
図5は、本発明に係る語学学習システムの音声解析の一例を示すフローチャートである。ここでは、学習者が英語の発音を学習する場合について説明するが、他の言語の場合も同様である。
【0047】
[個人認証]
先ず、本発明に係る語学学習システムの個人認証の一例を
図3に基づいて説明する。
学習者は、例えば学習者端末3の表示部31に表示されたアイコンを選択し、学習支援サーバ1にアクセスするためのアプリケーションプログラムを起動させる(ステップS1)。本実施例では、学習者端末3は、学習支援サーバ1において英語の発音学習を支援する機能にアクセスする。
【0048】
学習者端末3からのアクセスを受けた学習支援サーバ1は、処理手段10が学習者端末3からの要求に応じて、英語の発音学習を支援する。先ず、処理手段10は、初期のアニメーションとして、例えば教師オブジェクトを含むアニメーションを学習者端末3の表示部31に表示させながら、「Hello!」など最初の挨拶の手本音声を学習者端末3の音入出力部32から出力させる(ステップS2)。このとき、教師オブジェクトは、学習者に発話を促すジェスチャーをすることが好ましい。
【0049】
学習者が、同じく「Hello!」と発音して挨拶すると、処理手段10は、学習者端末3の音入出力部32から入力された学習者音声を取得し(ステップS3)、この学習者音声を解析して声紋認証を行う(ステップS4)。学習者音声の解析手順については、後述する。
【0050】
処理手段10は、学習者音声を解析して得られた声紋と、予め記憶手段20に記憶された登録者の声紋とを照合し、学習者を特定する(ステップS5)。処理手段10は、取得した学習者音声の声紋と一致する声紋の登録情報を取得する。このとき、処理手段10は、教師オブジェクトに学習者の名前を発話させたり、予め学習者が登録した認証用画像を表示部31に表示させたりして、学習者を認証してもよい。
【0051】
処理手段10は、学習者を認証すると、学習状況記憶手段22に記憶された該学習者の学習した単語及びセンテンスの発音の正確性の評価に基づいて作成された該学習者の学習カリキュラムを実行する。一方、取得した学習者音声の声紋と一致する声紋がないとき、処理手段10は、学習者端末3にエラー情報を送信して、認証処理を終了する。
【0052】
[学習カリキュラムの実行]
次に、本発明に係る語学学習システムの学習支援の一例を
図4に基づいて説明する。
処理手段10は、音声送信手段11によって、学習者端末3に学習言語である英語の手本音声及び該手本音声に対応するアニメーションを送信し、学習者に手本音声とアニメーション又はアニメーションに含まれる画像を関連付けて知覚させる(ステップS11)。具体的には、音声送信手段11は、学習者端末3の表示部31に教師オブジェクトと共に、手本音声に対応する画像(例えば「りんご」の画像)を含むアニメーションを表示させ、教師オブジェクトが該画像を指し示しながら、音入出力部32から手本音声(ここでは「apple」の音声)を出力させ、学習者に手本音声とアニメーションに含まれる画像を関連付けて知覚させる。
【0053】
次に、処理手段10は、学習者端末3に対して手本音声を送信しないで、音声取得手段12によってアニメーションのみを送信し、表示部31に「りんご」の画像を含むアニメーションを表示させ、学習者に「りんご」の画像に対応する英単語「apple」の発話を要求する(ステップS12)。このとき、処理手段10は、教師オブジェクトが「りんご」の画像を指しながら発話を要求するアニメーションを学習者端末3に送信する。
【0054】
学習者が学習者端末3に向かって「apple」と発話すると、処理手段10は、学習者端末3の音入出力部32から入力された学習者音声を取得する(ステップS13)。音入出力部32から入力された学習者音声は、学習者端末3の処理部においてA/D変換され、ネットワーク4を介して学習支援サーバ1に送信される。処理手段10は、取得した学習者音声を記憶手段20に一時的に記憶する。
【0055】
処理手段10は、音声解析手段13によって、取得した学習者音声を解析して発音の正確性を評価する(ステップS14)。音声解析手段13は、取得した音声からステップS4で認証した学習者の音声を特定し、この学習者の音声について発音の正確性を評価する。学習者音声の評価手順については、後述する。
【0056】
処理手段10は、音声解析手段13が評価した発音の正確性の評価を、予め設定した所定の基準値と比較する(ステップS15)。発音の正確性の評価が所定の基準値を満たした場合には、処理手段10は、評価送信手段14によって、音声解析手段13が評価した発音の正確性の評価を表す画像又は該画像を含むアニメーションを学習者端末3に送信し、表示部31に表示させる(ステップS16)。具体的には、評価送信手段14は、学習者の発話に反応して教師オブジェクトがジェスチャーで評価を表す。例えば、評価の違いは、教師オブジェクトのジェスチャーの大きさで表すことができ、ジェスチャーが大きい程、評価が高くなる。
【0057】
一方、発音の正確性の評価が所定の基準値を満たさない場合には、処理手段10は、ステップS11に戻り、音声送信手段11によって、学習者端末3に学習言語である英語の手本音声及び該手本音声に対応するアニメーションを再送信し、学習者に手本音声とアニメーション又はアニメーションに含まれる画像を関連付けて知覚させる。このとき、音声送信手段11は、直前に送信した手本音声の話者とは異なる話者の手本音声を送信してもよい。
【0058】
発音の正確性の評価が所定の基準値を満たした場合には、処理手段10は、学習者の学習カリキュラムに基づいて、次の単語又はセンテンスの手本音声を学習者端末3に送信し、語学学習を終了するまでステップS11からステップS16までの処理を繰り返し実行する(ステップS17)。
【0059】
学習カリキュラムに基づいた語学学習が終了したとき、又は、学習者が学習者端末3で語学学習の終了を選択したときは、処理手段10は、学習状況記憶手段22に学習した単語及びセンテンスの発音の正確性の評価を記憶する(ステップS18)。
【0060】
そして、処理手段10は、成績作成手段15によって、学習状況記憶手段22に記憶された発音の正確性の評価に基づいて学習者の学習進捗度及び得意音又は不得意音を含む成績を作成して記憶手段20に記憶すると共に、学習者端末3に成績を送信する(ステップS19)。また、処理手段10は、学習者端末3に代えて、又は、学習者端末3に加えて保護者端末に成績を送信してもよい。このとき、処理手段10は、1ヶ月に一度など定期的に成績を保護者端末に送信するようにしてもよい。
【0061】
また、処理手段10は、成績作成手段15によって作成された成績に基づいて学習者毎の学習カリキュラムを作成し、記憶手段20に記憶する。なお、処理手段10は、語学学習中の発音の正確性に基づいて、学習カリキュラムを修正してもよい。
【0062】
[学習者音声の解析]
本発明に係る語学学習システムの音声解析の一例を
図5に基づいて説明する。
処理手段10は、学習者端末3の音入出力部32で入力され、A/D変換された音データを取得し、この音データから音声箇所をサンプリングし、量子化して、学習者の音声信号を生成する(ステップS21)。
【0063】
処理手段10は、前処理手段によって、音声信号を増幅処理し、フレーム分割して窓かけ処理を行う(ステップS22)。また、処理手段10は、音声特徴抽出手段によって、音声信号を高速フーリエ変換(FFT処理)してメルフィルタバンクをかけて対数値を算出し、離散コサイン変換(DCT変換)と一階差分変換を行って音声の周波数特性を抽出する(ステップS23)。
【0064】
処理手段10は、音声認識手段によって、音声の周波数特性を記憶手段20に記憶された各学習者の声紋と照合して学習者を特定する(ステップS24)。上述の個人認証において、処理手段10は、特定した学習者に対して、必要な場合は追加の認証手続を行って個人認証処理を終了する。また、学習カリキュラムにおいて、処理手段10は、音声の周波数特性が認証した学習者の声紋と一致するか否かを判定し(ステップS25)、一致しない場合にはステップS21からステップS25までの処理を繰り返し実行する。
【0065】
学習カリキュラムにおいて、処理手段10は、音声認識手段によって、音声の周波数特性から該当する音素にデコードする(ステップS24)。ステップS25において音声の周波数特性が認証した学習者の声紋と一致する場合には、処理手段10は、全フレームの音声の周波数特性から該当する音素へのデコードが完了するまでステップS23からステップS24までの処理を繰り返し実行する(ステップS26)。
【0066】
全フレームの音声の周波数特性から該当する音素へのデコードが完了すると、処理手段10は、発音評価手段によって、記憶手段20に記憶された音響モデル、辞書モデル及び言語モデルに基づいて、音の正確性を評価する音響スコアと、言語の正確性を評価する言語スコアと、を算出し、学習者の発音の正確性を評価する(ステップS27)。