【文献】
河原 達也(外1名),音声情報処理技術を用いた外国語学習支援,電子情報通信学会論文誌,日本,一般社団法人電子情報通信学会,2013年 7月 1日,V0L.J96-D,NO.7,P.1549-1565
(58)【調査した分野】(Int.Cl.,DB名)
手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとを入力する入力部と、
前記手本又は前記ユーザの発話に対する音声データ、前記第1分析データもしくは前記第2分析データが所定の棄却条件式を満たす場合に棄却を行う棄却部と、
予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第1比較部と、
前記第1分析データと前記第2分析データとの差分を算定して分析する第2比較部と、
前記第1比較部において比較対象となる音素の組み合わせと所定の条件式と第1指摘内容との組み合わせを保持する第1データ管理部と、
前記第2比較部において分析対象となる分析対象項目と前記分析対象項目毎の条件式と第2指摘内容との組み合わせを保持する第2データ管理部と、
前記第1比較部又は前記第2比較部の出力が、前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1文字以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える、
発話評価装置。
【発明を実施するための形態】
【0018】
以下、本発明に係る発話評価装置、発話評価方法及びプログラムを具体的に開示した実施形態(以下、「本実施形態」という)について、図面を参照して説明する。本実施形態の発話評価装置は、外国語(例えば英語)を学習する学習者が手本(例えば英語を母国語とするネイティブの発話した音声)の音声データと学習者自身が発話した音声の音声データとを用いて、学習者の発話した音声に指摘事項があると判断した場合に、指摘事項を識別可能に学習者に提示する。
【0019】
なお、本発明は、発話評価装置が行う各動作を含む方法(発話評価方法)、又は発話評価方法をコンピュータである発話評価装置に実行させるためのプログラムとして表現することも可能である。以下の本実施形態では、本発明に係る発話評価装置の構成及び動作の一例について説明する。
【0020】
(発話評価装置の構成)
先ず、本実施形態の発話評価装置の構成の一例について、
図1を参照して説明する。
図1は、本実施形態の発話評価装置20の内部構成を詳細に示すブロック図である。
図1に示す発話評価装置20は、入力部1と、録音部2と、棄却部12と、分析データ生成部3と、第1比較部4と、第1データ管理部M1と、第2比較部5と、第2データ管理部M2と、制御部7と、履歴管理部8と、表示部9と、受信部10と、再生部11とを含む構成である。発話評価装置20は、例えばデスクトップ型又はラップトップ型のPC(Personal Computer)、スマートフォン、携帯電話機、タブレット端末、PDA(Personal Digital Assistant)等のデータ通信端末である。
【0021】
入力部1は、学習対象となるテキストに対する手本(例えばネイティブの発話した音声)の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報(例えば開始時刻、終了時刻)とを少なくとも含む第1分析データを入力(取得)する。なお、第1分析データには、手本の音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち1つ以上が更に含まれてもよい。
【0022】
また、入力部1は、学習対象となるテキストに対して学習者が発話した音声の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報(例えば開始時刻、終了時刻)とを少なくとも含む第2分析データを入力(取得)する。なお、同様に第2分析データには、学習者の発話に対する音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち1つ以上が更に含まれてもよい。
【0023】
入力部1は、上述した第1分析データ及び第2分析データを取得した場合には、棄却部12に出力する。また、入力部1は、テキストデータだけを入力している場合には、テキストデータを録音部2に出力する。なお、入力部1が上述した第1分析データ及び第2分析データを入力している場合には、録音部2及び分析データ生成部3は発話評価装置20の構成から省略されてもよい。
【0024】
録音部2は、例えばマイクロホン(不図示)を有し、このマイクロホンを用いて、手本となるネイティブ又は学習者が発話した音声を収音して取り込むための録音に関する機能部である。録音部2は、ネイティブ又は学習者が学習対象となるテキストを発話した音声をマイクロホンにおいて収音した場合、入力部1から出力されたテキストデータと収音により得られた音声データとを対応付けて棄却部12に出力する。例えばネイティブ又は学習者が発話評価装置20に対して自己の音声を録音する際、録音は後述する第1録音パターン(
図7参照)、第2録音パターン(
図8参照)、第3録音パターン(
図9参照)、第4録音パターン(
図10参照)のいずれかの方法に従って行われ、詳細については後述する。
【0025】
棄却部12は、入力部1から第1分析データ及び第2分析データを取得している場合、第1分析データ及び第2分析データに含まれる、もしくは第1分析データ及び第2分析データより取得する音高、音圧、音声データ長、無音の継続時間長のいずれか1つが棄却部12の保持する条件式(
図15(A)参照)を満たすか否かを判断し、満たす場合は棄却する。棄却部12は、棄却する場合、学習者に棄却した旨を提示する(
図15(B)参照)。条件式を満たさない場合、棄却部12は第2分析データを第1比較部4に出力し、更に、第1分析データ及び第2分析データを第2比較部5に出力する。
【0026】
また、棄却部12は、録音部2からテキストデータ及び手本又は学習者の音声データを取得している場合、手本又は学習者の音声データを分析することで、音高、音圧、音声データ長、無音の継続時間長を取得し、前述した条件式(
図15(A)参照)を満たすか否かを判断し、満たす場合は棄却する。棄却部12は、棄却する場合、学習者に棄却した旨を提示する(
図15(B)参照)。条件式を満たさない場合、棄却部12はテキストデータ及び手本又は学習者の音声データを分析データ生成部3に出力する。音高、音圧、音声データ長の取得方法は公知技術であるため、詳細は省略することとし、以下同様である。無音の継続時間長は音圧がある一定値以下の時間を計測することで得られる。なお、棄却部12では必ずしもテキストデータは必要ではない。
【0027】
分析部の一例としての分析データ生成部3は、テキストデータとネイティブ又は学習者の音声データとを用いて分析(例えば公知の音声認識処理を使用)することで、テキストデータに含まれるテキストの音声を構成する音素毎の開始時刻及び終了時刻を取得する。また、分析データ生成部3は、テキストデータとネイティブ又は学習者の音声データとを用いて分析することで、手本又は学習者の音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち1つ以上を取得してもよいし、棄却部12より得られる各値に基づき、算出してもよい。音高の変化量、音高の変化量の変化量、音圧の変化量、音圧の変化量の変化量の取得方法は公知技術であるため、詳細は省略することとし、以下同様である。音高の極大値、音高の極小値、音高の最大値、音高の最小値は前述した音高の変化量より得られ、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値は前述した音圧の変化量より得られる。
【0028】
これにより、分析データ生成部3は、手本に対する第1分析データ(上述参照)と学習者の発話に対する第2分析データ(上述参照)とを生成することができる。分析データ生成部3は、第2分析データを第1比較部4に出力し、更に、第1分析データ及び第2分析データを第2比較部5に出力する。
【0029】
第1比較部4は、棄却部12もしくは分析データ生成部3から出力された第2分析データと第1データ管理部M1において保持される予め定められた音響モデルとを用いて、学習者が発話した音声の音素列を構成する各音素(比較元音素)と音素毎に予め定められた比較対象音素(
図19(A)参照)との比較結果を基にした音素列の誤り検出を行う。言い換えると、第1比較部4は、学習者の学習対象となるテキストの発話時の発音の正確性について誤りが無いかどうかを客観的に評価する。第1比較部4は、学習者が発話した音声の音素列の誤り検出結果を第1データ管理部M1及び制御部7に出力する。なお、音響モデルとは、認識対象となる各音素がそれぞれどのような周波数特性を持っているかを表したデータである。
【0030】
第1データ管理部M1は、例えば揮発性メモリ又はHDD(Hard Disk Drive)を用いて構成され、上述した音響モデル、
図19(A)に示す音素と音素毎の比較対象音素との対応付けが規定されたテーブル、第1比較部4が誤り検出時に用いる所定の条件式、第1比較部4の出力(即ち、学習者が発話した音声に対する誤り検出の結果)を管理、記憶する。
【0031】
第2比較部5は、棄却部12もしくは分析データ生成部3から出力された第1分析データと第2分析データとの差分(即ち、手本の音声データに対応する第1分析データと学習者の発話に対応する第2分析データとの差分)を算定する。第2比較部5は、第1分析データと第2分析データとの差分と、第2データ管理部M2において保持される予め定められた発話時の流暢さに関する分析対象項目毎の条件式(
図28(A)参照)とを比較する。言い換えると、第2比較部5は、学習者のテキストの発話時の流暢さについて誤りが無いかどうかを客観的に評価する。第2比較部5は、第1分析データと第2分析データとの差分と分析対象項目毎の条件式との比較結果を第2データ管理部M2及び制御部7に出力する。
【0032】
第2データ管理部M2は、例えば揮発性メモリ又はHDDを用いて構成され、
図28(A)に示す第2比較部5において用いられる発話時の流暢さに関する分析対象項目と分析対象項目毎の条件式との対応付けが規定されたテーブル、第2比較部5の出力(即ち、学習者の発話時の流暢さの誤り検出結果)を管理、記憶する。
【0033】
制御部7は、発話評価装置20の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。例えば、制御部7は、学習者の受信部10に対する所定の入力操作に応じて、手本の音声データもしくは学習者の発話に対する音声データの再生部11を用いた再生処理、又はテキストデータに対応するテキストの表示部9への表示(提示)処理を制御する。手本の音声データもしくは学習者の発話に対する音声データの再生部11を用いた再生処理、又はテキストデータに対応するテキストの表示部9への表示(提示)処理の具体的な制御例については、後述する。
【0034】
制御部7は、第1比較部4又は第2比較部5の各出力が第1データ管理部M1の所定の条件式又は第2データ管理部M2の分析対象項目毎の条件式を満たす場合には、第1比較部4及び第2比較部5の出力(即ち、分析対象項目毎にテキストデータの該当する音素の位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容)を表示部9に表示させる。
【0035】
なお、制御部7は、
図29に示すテーブル(即ち、第2比較部5における分析対象項目毎に、第1比較部4における誤り検出結果の指摘可否を規定した情報が規定されたテーブル)を保持し、このテーブルと第1比較部4の出力と第2比較部5の出力とを用いて、第2比較部5の出力に含まれる分析対象項目毎の指摘内容に応じて、第1比較部4における誤り検出結果を指摘するか否かを照合し、その結果(即ち、テキストデータの該当する音素の位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容)を表示部9に表示させてもよい(
図2参照)。
【0036】
なお、必ずしも第2比較部5における分析対象項目と第1比較部4における誤り検出結果の組み合わせを規定する必要はなく、例えば第2比較部5における分析対象項目同士の組み合わせを規定しても良い。
【0037】
履歴管理部8は、例えば揮発性メモリ又はHDDを用いて構成され、学習者が過去に実施した第1比較部の誤り検出の結果又は第2比較部の分析結果又は指摘対象文字列及び指摘内容と、当該実施したテキストデータ及び音声データと、学習者又は実施日(学習日)又はスコア又は指摘件数のいずれかの組み合わせを示すデータが対応付けて示される学習履歴の一覧を管理、記憶する。また、履歴管理部8は、学習者の学習日毎の学習履歴に関する全てのデータ(例えば手本及び学習者の音声データ、テキストデータ及びそれに対応する第1分析データ、第2分析データ、第1比較部4における誤り検出結果、第2比較部5における分析対象項目とこの分析対象項目毎の指摘内容、制御部7における分析対象項目毎にテキストデータの該当する音素の位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容等)を対応付けて記憶する。
【0038】
表示部9は、例えばLCD(Liquid Crystal Display)もしくは有機EL(Electroluminescence)を用いて構成され、学習者又は指導者の受信部10に対する入力操作に応じて、制御部7の制御の下で、各種画面(例えば学習者の発話に対する第2分析データに含まれる音声データに関して指摘対象文字列を示す画面(後述参照))を表示する。
【0039】
受信部10は、学習者又は指導者の入力操作を受け付け、入力操作の内容を制御部7に通知するためのユーザインターフェース(UI:User Interface)であり、例えばマウス、キーボード等で構成される。また、受信部10は、例えば表示部9の画面に対応して配置され、学習者又は指導者の指又はスタイラスペンによって操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。
【0040】
再生部11は、例えばスピーカ(不図示)を有し、受信部10が受け付けた学習者又は指導者の入力操作に応じて、制御部7の下で手本の音声データ又は学習者の発話に対する音声データを再生し、音声データに含まれる音声をスピーカから出力する。
【0041】
図2は、学習者が発話した音声に対する指摘対象文字列と指摘内容とを示した画面WD1の表示例を示す図である。
図2に示す画面WD1では、学習者が発話した音声に対する指摘対象文字列と指摘内容とが表示される表示領域AR1と、表示領域AR1の下側(画面WD1の下端部側)に手本ボタンBT1,ユーザボタンBT2,再生ボタンBT3,停止ボタンBT4,波形ボタンBT5,スコアボタンBT6とが表示されている。
【0042】
表示領域AR1には、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」の3つの文章が表示されており、単語「pen」の音素「e」が指摘対象文字列として他の文字列と比べて識別可能に示され(下線参照)、更に、単語「name」の音素「n」が別の指摘対象文字列として他の文字列と比べて識別可能に示されている。
【0043】
制御部7は、ユーザ(例えば学習者)の受信部10に対する入力操作として、表示部9の画面WD1に表示されたカーソルCSRを指摘対象文字列である音素「e」に重ね合わせると(ロールオーバ)、例えば音素「e」に関して第1比較部4が検出した誤りについての指摘内容CM1(第1指摘内容)として『pen[p/e/n]の発音が[p/a/n]になっています』を、指摘対象文字列である音素「e」の周囲に表示させる。
【0044】
また、制御部7は、ユーザ(例えば学習者)の受信部10に対する入力操作として、表示部9の画面WD1に表示されたカーソルCSRを指摘対象文字列である音素「n」に重ね合わせると(ロールオーバ)、例えば音素「n」に関して第2比較部5が検出した分析対象項目の誤りについての指摘内容CM2(第2指摘内容)として『前に余計な呼気が含まれています』を、指摘対象文字列である音素「n」の周囲に表示させる。
【0045】
なお、ユーザ(例えば学習者)の受信部10に対する入力操作は、ロールオーバに限定されず、カーソルCSRを指摘対象文字列に近づけてクリック操作もしくは長押し操作、又はタップ操作でもよく、以下同様である。また、
図2では、指摘対象文字列を他の文字列に対して識別可能に表示させるために、指摘対象文字列に下線を引いているが、下線に限定されず、指摘対象文字列毎に異なる色を用いて色付けしてもよいし、指摘対象文字列毎に背景色に異なる色を用いてもよいし、枠線、ボールド表記(太字表記)、フォントタイプやフォントサイズを適宜変更してもよく、以下同様である。
【0046】
図2において、ユーザ(例えば学習者)の受信部10に対する入力操作として、波形ボタンBT5が押下されると、制御部7は、手本の音声データの概形WV1及び概形WV1に対応するテキスト、並びに学習者の発話に対する音声データの概形WV2及び概形WV2に対応するテキストを対比的に表示部9に表示させる(
図3参照)。
図3は、波形ボタンBT5の押下に伴う手本の音声、学習者が発話した音声の各概形WV1,WV2及びテキストを対比的に示した画面WD2の表示例を示す図である。
【0047】
図3に示す画面WD2では、手本の音声データの概形WV1(例えば、手本の音声データの音高又は音圧)及び概形WV1に対応するテキスト、並びに学習者の発話に対する音声データの概形WV2(例えば、学習者の発話に対する音声データの音高又は音圧)及び概形WV2に対応するテキストが対比的に表示される表示領域AR1と、表示領域AR1の下側(画面WD2の下端部側)に手本ボタンBT1,ユーザボタンBT2,再生ボタンBT3,停止ボタンBT4,波形ボタンBT5,スコアボタンBT6とが表示されている。
【0048】
表示領域AR1は、手本の音声データの概形及び概形に対応するテキストが対応付けて表示される表示領域MD1と、学習者の発話に対する音声データの概形及び概形に対応するテキストが対応付けて表示される表示領域US1とにより構成される。表示領域MD1において、例えば区間DR1は手本の音声データの内、単語「This」が発話された開始時刻から終了時刻までの区間を示す。同様に、表示領域US1において、例えば区間DR2は学習者の発話に対する音声データの内、単語「This」が発話された開始時刻から終了時刻までの期間を示す。これにより、発話評価装置20は、学習対象となるテキストの単語毎に、手本の音声データと、学習者の発話に対する音声データとの音高、音圧の差異を識別可能に学習者に把握させることができる。
【0049】
図3でも同様に、制御部7は、例えば単語「pen」の「e」に相当する音素について第1比較部4が誤りを検出した場合には、指摘対象文字列として、表示領域MD1のテキストと表示領域US1のテキストの両方の文字列「e」を、他の文字列に対して識別可能に表示させる。また、表示領域MD1において、例えば区間DR3は文章「This is a pen.」と文章「My name is Taro」(
図2参照)との間の息継ぎのためのショートポーズ(無音)の区間を示す。
【0050】
また、制御部7は、ユーザ(例えば学習者)の受信部10に対する入力操作として、例えば文章「This is a pen.」の単語「is」にカーソルCSRを近づけてクリック操作(タップ操作でも可)した場合、クリック操作又はタップ操作された単語「is」を起点として頭出しして、単語「is」又は単語「is」以降の文章を再生部11に再生させる。なお、制御部7は、クリック操作、タップ操作又はロールオーバ操作された単語「is」を含む所定範囲を、他の単語と識別可能に表示部9に表示させてもよい(単語「is」付近の点線参照)。識別可能に表示させる態様として、制御部7は、例えば指摘対象文字列に対応付けて表示される手本の音声データの概形及び学習者の発話に対する音声データの概形の色を変更してもよいし、当該概形の背景色を変更してもよい。
【0051】
また、制御部7は、手本の音声データの概形WV1及び概形WV1に対応するテキスト、並びに学習者の発話に対する音声データの概形WV2及び概形WV2に対応するテキストを対比的に表示部9に表示させる際、指摘対象文字列である音素「e」に対応する概形WV1,WV2の音高、音圧の該当部分AT1,AT2を識別可能に表示してもよい(
図4参照)。識別可能に表示させる態様として、制御部7は、例えば該当部分AT1,AT2の色を変更してもよいし、当該概形の背景色を変更してもよい。
【0052】
図4は、
図3に示す各概形WV1,WV2において指摘対象文字列及び指摘対象文字列に対応する音高、音圧の該当部分を識別可能に表示した例を示す図である。
図4でも同様に、制御部7は、例えば単語「pen」の音素「e」について第1比較部4が誤りを検出した場合には、指摘対象文字列として、表示領域MD1のテキストと表示領域US1のテキストの両方の音素「e」を、他の音素に対して識別可能に表示させる。
【0053】
また、
図3及び
図4において、ユーザ(例えば学習者)の受信部10に対する入力操作として、手本ボタンBT1が選択された状態で,再生ボタンBT3が押下された場合には、制御部7は、手本の音声データをテキストの最初から順に再生部11に再生させ、停止ボタンBT4が押下された場合には、手本の音声データの再生を再生部11に停止させる。一方、ユーザボタンBT2が選択された状態で,再生ボタンBT3が押下された場合には、制御部7は、ユーザ(例えば学習者)の発話に対する音声データをテキストの最初から順に再生部11に再生させ、停止ボタンBT4が押下された場合には、学習者の発話に対する音声データの再生を再生部11に停止させる。
【0054】
図2において、ユーザ(例えば学習者)の受信部10に対する入力操作として、カーソルCSRを指摘対象文字列である単語「pen」の音素「e」,単語「name」の音素「n」にロールオーバしない場合には、制御部7は、音素「e」,音素「n」の周囲に各指摘内容CM1,CM2を表示させない(
図5参照)。
図5は、再生ボタンBT3の押下に伴う手本の音声又は学習者が発話した音声の再生時の画面WD1の表示例を示す図である。
図6は、指定された単語に対する手本の音声、学習者が発話した音声の連続再生時の画面WD1の表示例を示す図である。
【0055】
図5において、ユーザ(例えば学習者)の受信部10に対する入力操作として、例えば手本ボタンBT1が選択された状態で,再生ボタンBT3が押下された場合には、制御部7は、手本の音声データを用いて、3つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部11に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部9に表示(例えばハイライト表示)させる。一方、ユーザボタンBT2が選択された状態で,再生ボタンBT3が押下された場合には、制御部7は、学習者の発話に対する音声データを用いて、3つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部11に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部9に表示(例えばハイライト表示)させる。
【0056】
また
図5において、ユーザ(例えば学習者)の受信部10に対する入力操作として、例えば文章「This is a pen.」の単語「is」にカーソルCSRを近づけてクリック操作(タップ操作でも可)した場合、制御部7は、クリック操作又はタップ操作された単語「is」を起点として頭出しして、単語「is」又は単語「is」以降の文章を再生部11に再生させる。なお、制御部7は、クリック操作又はタップ操作された単語「is」を含む所定範囲を、他の単語と識別可能に表示部9に表示させてもよい(単語「is」付近の点線参照)。
【0057】
図6において、ユーザ(例えば学習者)の受信部10に対する入力操作として、例えばカーソルCSRが指摘対象文字列である音素「e」を含む単語「pen」を指定してダブルクリック操作(ダブルタップ操作でも可)された場合には、制御部7は、例えば手本の音声データの単語「pen」を再生部11に再生させ、その後連続して学習者の発話に対する音声データの単語「pen」を再生部11に再生させる。
【0058】
なお、制御部7は、例えば学習者の発話に対する音声データの単語「pen」を再生部11に再生させ、その後連続して手本の音声データの単語「pen」を再生部11に再生させてもよい。先に手本の音声データと学習者の発話に対する音声データのどちらを先に再生するかについては、例えばダブルクリック操作(ダブルタップ操作でも可)がなされる前に手本ボタンBT1が押下されていれば先に手本の音声データを再生し、ユーザボタンBT2が押下されていれば先に学習者の発話に対する音声データを再生すればよいが、この方法に限定されない。例えば、手本の音声データと学習者の発話に対する音声データのどちらを先に再生するかを定める設定値を再生部11が保持してもよいし、その設定値は学習者や指導者の受信部10に対する入力操作に応じて適宜変更されてもよい。
【0059】
次に、録音部2におけるネイティブ又は学習者の発話時の音声を録音する方法について、
図7、
図8、
図9、
図10を参照して説明する。
図7は、第1録音パターンに対応した音読ボタンBT8の押下に伴う学習者の音読に対する録音時の画面WD3aの表示例を示す図である。
図8は、第2録音パターンに対応したシャドーイングボタンBT7の押下に伴う学習者のシャドーイングに対する録音時の画面WD3bの表示例を示す図である。
図9は、第3録音パターンに対応した第1パラレルモードボタンBT9の押下に伴う学習者の音読に対する録音時の画面WD3cの表示例を示す図である。
図10は、第4録音パターンに対応した第2パラレルモードボタンBT10の押下に伴う学習者の音読に対する録音時の画面WD3dの表示例を示す図である。
【0060】
図7から
図10に示す各画面WD3a,3b,3c,3dは、ユーザ(例えば学習者)の受信部10に対する所定の入力操作に応じて、表示部9において表示される。また、説明を簡単にするために、
図7から
図10の説明では、学習者が自己の発話時の音声を録音する場合を例示して説明するが、ネイティブが自己の発話時の音声を録音する場合でも同様である。
【0061】
図7では、第1録音パターン(つまり、音読)の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」が画面WD3aに表示される。ユーザ(例えば学習者)の受信部10に対する入力操作として、カーソルCSRが音読ボタンBT8を押下した場合には、録音部2は、学習者が学習対象となるテキストを読んだ(発話した)時の音声を収音して取り込む(録音する)。第1録音パターンでは、学習者によっていわゆる音読が行われるため、制御部7は、学習対象となるテキストのテキストデータに対応する音声データを再生部11に再生させず、学習対象となるテキストのテキストデータに対応する音声データの再生の進行状況に合わせたハイライト表示を表示部9に行わせない。これにより、学習者は、音読による自己の発話時の音声を録音することができる。
【0062】
図8では、第2録音パターン(つまり、シャドーイング)の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」は画面WD3bに表示されない。ユーザ(例えば学習者)の受信部10に対する入力操作として、カーソルCSRがシャドーイングボタンBT7を押下した場合には、制御部7は、学習対象となるテキストのテキストデータに対応する手本の音声データを再生部11に再生させる。この場合、録音部2は、学習者が聞こえた手本の音声データの内容を発話した時の音声を収音して取り込む(録音する)。これにより、学習者は、シャドーイングによる自己の発話時の音声を録音することができる。
【0063】
図9では、第3録音パターン(つまり、音声再生無しでテキストのハイライト表示あり)の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」が画面WD3cに表示される。ユーザ(例えば学習者)の受信部10に対する入力操作として、カーソルCSRが第1パラレルモードボタンBT9を押下した場合には、制御部7は、学習対象となるテキストのテキストデータに対応する手本の音声データの音声を出力しないで再生部11に再生させ(ミュート再生)、更に、手本の音声データに対応する第1分析データを用いて、学習対象となるテキストのテキストデータに対応する手本の音声データの再生の進行状況に合わせたハイライト表示を表示部9に行わせる。この場合、録音部2は、学習者が学習対象となるテキストのハイライト表示の進行に合わせて発話した時の音声を収音して取り込む(録音する)。これにより、学習者は、音声が出力されていない状態でもハイライト表示されたテキストを見ながら自己の発話時の音声を録音することができるので、流暢な発音を心がけることができる。
【0064】
図10では、第4録音パターン(つまり、音声再生ありでテキストのハイライト表示あり)の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」が画面WD3dに表示される。ユーザ(例えば学習者)の受信部10に対する入力操作として、カーソルCSRが第2パラレルモードボタンBT10を押下した場合には、制御部7は、学習対象となるテキストのテキストデータに対応する手本の音声データの音声を出力しながら再生部11に再生させ、更に、手本の音声データに対応する第1分析データを用いて、学習対象となるテキストのテキストデータに対応する手本の音声データの再生の進行状況に合わせたハイライト表示を表示部9に行わせる。この場合、録音部2は、学習者が手本の音声データを聞き、且つテキストのハイライト表示を見ながらその進行に合わせて発話した時の音声を収音して取り込む(録音する)。これにより、学習者は、音声が出力されている状態でハイライト表示されたテキストを見ながら自己の発話時の音声を録音することができるので、音声が出力されていない状態に比べて、より流暢かつ丁寧な発音を心がけることができる。
【0065】
図2において、ユーザ(例えば学習者)の受信部10に対する入力操作として、スコアボタンBT6が押下された場合には、制御部7は、第1比較部4の出力の一例としての学習者の発音の正確さのスコアと、第2比較部5の出力の一例としての学習者の発話に関する流暢さのスコアと、第1比較部4及び第2比較部5の出力の一例としての指摘内容とを含む画面WD4を表示部9に表示させる(
図11参照)。
図11は、スコアボタンBT6の押下に伴う学習者が発話した音声に関する各種スコアと指摘内容とを示した画面WD4の表示例を示す図である。なお、制御部7は、前述したスコアについて、必ずしも、第1比較部4の出力の一例としての学習者の発音の正確さのスコアと、第2比較部5の出力の一例としての学習者の発話に関する流暢さのスコアを分ける必要はなく、双方のスコアを用いて1つのスコアを算出し、表示部9に表示させても良い。また、制御部7は、前述したスコアについて、第2比較部5の出力に含まれる分析対象項目毎の指摘内容に応じて、第1比較部4における誤り検出結果を指摘するかの照合結果を用いて、スコアを算出し、表示部9に表示させても良い。
【0066】
図11では、簡単にするためにスコア自体の図示は省略されているが、後述するスコア算定方法により得られたスコアが表示され、また指摘内容として、例えば「手本と比べて、発話がゆっくりです」と、「pen[p/
e/n]の発音が[p/
a/n]になっています 」と、「「name」の前に余計な呼気が含まれています」とが表示される。「手本と比べて、発話がゆっくりです」と「「name」の前に余計な呼気が含まれています」とは、学習者の発話の流暢さに関する指摘内容の一部で第2比較部5の出力の一例である。また、「pen[p/
e/n]の発音が[p/
a/n]になっています 」は、学習者の発音の正確さに関する指摘内容の一部で第1比較部4の出力の一例である。なお、必ずしも第1比較部4もしくは第2比較部5の出力である指摘内容を表示する必要はない。
【0067】
(発話評価装置の動作)
次に、本実施形態の発話評価装置20の全体的な動作手順について、
図12〜
図14を参照して説明する。
図12は、本実施形態の発話評価装置の全体的な動作手順の一例を説明するフローチャートである。
図13は、
図12に続く動作手順の一例を説明するフローチャートである。
図14は、
図13に続く動作手順の一例を説明するフローチャートである。
図12では、録音部2及び分析データ生成部3が使用されず、手本の音声データに対応する第1分析データと学習者の発話に対する音声データに対応する第2分析データとが入力部1に入力される例について説明する。
【0068】
図12において、入力部1は、学習対象となるテキストに対する手本(例えばネイティブの発話した音声)の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報(例えば開始時刻、終了時刻)とを少なくとも含む第1分析データを入力(取得)する(S1)。また、入力部1は、学習対象となるテキストに対して学習者が発話した音声の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報(例えば開始時刻、終了時刻)とを少なくとも含む第2分析データを入力(取得)する(S1)。
【0069】
入力部1は、第1分析データと第2分析データを棄却部12に出力する(S1)。棄却部12は、取得した第1分析データ及び第2分析データ内に含まれる音圧もしくは音高、もしくは第1分析データ及び第2分析データより得られる音声データ長、無音の継続時間長のいずれか1つが条件式(
図15(A)参照)を満たすか否か判別する(S2)。もし、いずれか1つが条件式を満たす場合は、表示部9にて入力部1に当該条件式を満たした分析データ及びそれに相当する音声データとは異なる分析データ及び音声データの入力を促す内容を表示し(
図15(B))、ステップS4以降の処理は行わない(S3)。
【0070】
図15(A)では、棄却部12での前述した条件式の一例として、分析対象と分析対象毎の条件式を規定している。具体的には、分析対象A(音高)では、例えば音高の各時刻の値(Ai)が常に0(ゼロ)の場合は条件式を満たすと判別する。
【0071】
同様に、分析対象B(音圧)では、音圧の各時刻の値(Bi)が所定の値(Bmax、例えば、発話評価装置20が分析可能な音圧の最大値)以上又は、所定の値(Bmin、例えば、発話評価装置20が分析可能な音圧の最小値)以下の場合は条件式を満たすと判別する。分析対象C(音声データ長)では、音声データ長(C)が所定の値(Cmin、例えば、分析対象の音声データとして必要とされる時間長の0.8倍の値)以下又は、所定の値(Cmax、例えば、分析対象の音声データとして必要とされる時間長の1.2倍の値)以上の場合は条件式を満たすと判別する。
【0072】
更に、分析対象D(無音の継続時間長)では、無音の継続時間長(D)が所定の値(Dsil、例えば、5秒)以上の場合は条件式を満たすと判別する。
【0073】
なお、
図15(A)では一例として音圧、音高、音声データ長、無音の継続時間長の4つを用い、条件式を満たすか否かを判別しているが、いずれか1つのみ用いても良い。また、棄却部12は、第1分析データもしくは第2分析データを用いずに、音声データより音圧、音高、音声データ長、無音の継続時間長を算出しても良い。また、手本の音声データはノイズの少ない環境で録音されている場合が多いため、手本の音声データもしくは第1分析データに対する棄却するか否かの判別を必ずしも行う必要はない。
【0074】
ステップS2で音圧、音高、音声データ長、無音の継続時間長のいずれも条件式を満たさない場合は、棄却部12は、ユーザ発話の音声データと分析データとを第1比較部4に出力し、手本、ユーザ発話の各分析データを第2比較部5に出力し、全てのデータを制御部7に出力する(S4)。
【0075】
なお、
図1の複雑化を避けるために、棄却部12と制御部7との間の矢印の図示及び、棄却部12から表示部9との間の矢印の図示は省略している。また、
図13のステップS4の後、ステップS5の処理とステップS6の処理とは並行に行われるので、時系列の順序は特に規定されない。
【0076】
第1比較部4は、棄却部12から出力された第2分析データと第1データ管理部M1において保持される予め定められた音響モデルとを用いて、学習者が発話した音声の音素列を構成する各音素(比較元音素)と音素毎に予め定められた比較対象音素(
図19(A)参照)との比較結果を基にした音素列の誤り検出を行う(S5)。第1比較部4は、学習者が発話した音声の音素列の誤り検出結果を第1データ管理部M1及び制御部7に出力する。なお、第1比較部4における音素列の誤り検出の詳細については、後述する。
【0077】
第2比較部5は、棄却部12から出力された第1分析データと第2分析データとの差分(即ち、手本の音声データに対応する第1分析データと学習者の発話に対応する第2分析データとの差分)を算定する(S6)。第2比較部5は、第1分析データと第2分析データとの差分と、第2データ管理部M2において保持される予め定められた発話時の流暢さに関する分析対象項目毎の条件式(
図28(A)参照)とを比較する。第2比較部5は、第1分析データと第2分析データとの差分と分析対象項目毎の条件式との比較結果を第2データ管理部M2及び制御部7に出力する。なお、第2比較部5における比較の詳細については、後述する。
【0078】
第1比較部4の出力として誤りのある音素を含む音素列があると判断された場合には(S7、YES)、又は第2比較部5の出力として条件式を満たす分析対象項目があると判断された場合には(S8、YES)、発話評価装置20の動作はステップS9に進む。一方、第1比較部4の出力として誤りのある音素を含む音素列がないと判断され(S7、NO)、かつ第2比較部5の出力として条件式を満たす分析対象項目がないと判断された場合に限り(S8、NO)、発話評価装置20の動作はステップS12に進む。
【0079】
制御部7は、
図29に示すテーブル(即ち、第2比較部5における分析対象項目毎に、第1比較部4における誤り検出結果の指摘可否を規定した情報が規定されたテーブル)を参照し、このテーブルと第1比較部4の出力と第2比較部5の出力とを用いて、第2比較部5の出力に含まれる分析対象項目毎の指摘内容に応じて、第1比較部4における誤り検出結果を指摘するか否かを照合する(S9)。
図29は、第2比較部5の分析対象項目と第1比較部4における誤り検出の指摘可否とが対応付けられたテーブルの一例を示す図である。
【0080】
図29では、第2比較部5における分析対象項目毎に、第1比較部4における音素列の誤り検出結果を指摘するか否かを定める設定値が対応付けて規定されている。なお、
図29の場合、制御部7は、第1比較部4の出力から音素列の誤り検出結果に誤りがないと判断した場合には、
図29に示すテーブルを考慮しないで、第2比較部5の出力から分析対象項目毎の条件式を満たすか否かの判断結果を指摘するか否かの判断結果とすればよい。
【0081】
具体的には、分析対象項目A1「音素もしくは単語のデュレーション」について、学習者の発話に対する音声データに分析対象項目A1の条件式(
図28(A)参照)を満たす(即ち、分析対象項目A1について指摘するべきとの結果が得られた)指摘対象文字列が存在すると第2比較部5により判断された場合には、制御部7は、当該指摘対象文字列に対しては第1比較部4の出力(即ち、音素列の発音の正確さに関する指摘事項)を指摘しないと判断する。
【0082】
分析対象項目A2「無音のデュレーション」について、学習者の発話に対する音声データに分析対象項目A2の条件式(
図28(A)参照)を満たす(即ち、分析対象項目A2について指摘するべきとの結果が得られた)指摘対象文字列が存在すると第2比較部5により判断された場合には、制御部7は、当該指摘対象文字列に対しては第1比較部4の出力(即ち、音素列の発音の正確さに関する指摘事項)を指摘しないと判断する。
【0083】
分析対象項目A3「話速」について、学習者の発話に対する音声データが分析対象項目A3の条件式(
図28(A)参照)を満たす(即ち、分析対象項目A3について指摘するべきとの結果が得られた)と第2比較部5により判断された場合には、制御部7は、分析対象項目A3「話速」に関する第1比較部4の出力(即ち、音素列の発音の正確さに関する指摘事項)を指摘すると判断する。
【0084】
分析対象項目A4「音圧の最大値を持つ音素位置の差」について、学習者の発話に対する音声データに分析対象項目A4の条件式(
図28(A)参照)を満たす(即ち、分析対象項目A4について指摘するべきとの結果が得られた)指摘対象文字列が存在すると第2比較部5により判断された場合には、制御部7は、当該指摘対象文字列に対しては第1比較部4の出力(即ち、音素列の発音の正確さに関する指摘事項)を指摘すると判断する。
【0085】
分析対象項目A5「音高の最大値を持つ音素位置の差」について、学習者の発話に対する音声データに分析対象項目A5の条件式(
図28(A)参照)を満たす(即ち、分析対象項目A5について指摘するべきとの結果が得られた)指摘対象文字列が存在すると第2比較部5により判断された場合には、制御部7は、当該指摘対象文字列に対しては第1比較部4の出力(即ち、音素列の発音の正確さに関する指摘事項)を指摘すると判断する。
【0086】
なお、
図29に示すテーブルにおいて、ユーザ(例えば指導者)の指導方針に応じて、第1比較部4における音素列の誤り検出結果を指摘するか否かを定める設定値は、指導者の受信部10に対する入力操作に応じて、適宜変更されてもよい。これにより、指導者は、自己の指導方針に従って、第2比較部5における分析対象項目毎の、第1比較部4における音素列の誤り検出結果を指摘するか否かを定める設定値を規定することができる。
【0087】
制御部7は、保持するテーブル(
図29参照)の組み合わせを満たす(即ち、
図29に示すレコードの組み合わせに該当する第1比較部4及び第2比較部5の各出力が得られた)場合には(S9、YES)、照合結果を基に、学習者への指摘内容の表示の有無(指摘の有無)を制御する(S10)。言い換えると、制御部7は、
図29に示すテーブル(即ち、分析対象項目と第1比較部4における誤り検出結果の指摘可否との組み合わせ)の組み合わせに従って、第2比較部5の分析において分析対象項目毎の条件式を満たす分析対象項目に関する指摘内容を少なくとも表示部9に表示させ、更に、
図29に示すテーブルの組み合わせによっては第1比較部4の誤り検出において分析対象項目に関する指摘内容も表示部9に表示させる。
【0088】
一方、制御部7は、保持するテーブル(
図29参照)の組み合わせを満たさない(即ち、
図29に示すレコードの組み合わせに該当する第1比較部4及び第2比較部5の各出力が得られなかった)場合には(S9、NO)、第1データ管理部M1及び第2データ管理部M2に格納されている各種データ(即ち、第1比較部4及び第2比較部5の各出力)を用いて、学習者への指摘内容の表示(指摘)を制御する(S11)。
【0089】
制御部7は、第1比較部4の出力の一例としての学習者の発音の正確さのスコアと、第2比較部5の出力の一例としての学習者の発話に関する流暢さのスコアとを取得する(S12)。この場合、ユーザ(例えば学習者)の受信部10に対する入力操作として、
図2に示すスコアボタンBT6が押下された場合には、制御部7は、第1比較部4の出力の一例としての学習者の発音の正確さのスコアと、第2比較部5の出力の一例としての学習者の発話に関する流暢さのスコアと、第1比較部4及び第2比較部5の出力の一例としての指摘内容とを含む画面WD4を表示部9に表示させる(
図11参照)。
【0090】
ステップS12の後、ユーザ(例えば学習者)の受信部10に対する入力操作として、例えば手本ボタンBT1が選択された状態で,再生ボタンBT3が押下された場合には、制御部7は、手本の音声データを用いて、例えば3つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部11に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部9に表示(例えばハイライト表示)させる(S13、
図5参照)。一方、ユーザボタンBT2が選択された状態で,再生ボタンBT3が押下された場合には、制御部7は、学習者の発話に対する音声データを用いて、例えば3つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部11に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部9に表示(例えばハイライト表示)させる(S13、
図5参照)。
【0091】
又はステップS12の後、ユーザ(例えば学習者)の受信部10に対する入力操作として、例えば文章「This is a pen.」の単語「is」にカーソルCSRを近づけてクリック操作(タップ操作でも可)した場合、制御部7は、クリック操作又はタップ操作された単語「is」を起点として頭出しして、単語「is」又は単語「is」以降の文章を再生部11に再生させる(S13、
図5参照)。
【0092】
又はステップS12の後、ユーザ(例えば学習者)の受信部10に対する入力操作として、波形ボタンBT5が押下されると、制御部7は、手本の音声データの概形WV1及び概形WV1に対応するテキスト、並びに学習者の発話に対する音声データの概形WV2及び概形WV2に対応するテキストを対比的に表示部9に表示させる(S13、
図3参照)。
【0093】
次に、録音部2が使用される場合の発話評価装置20の全体的な動作手順について、
図16及び
図17を参照して説明する。
図16及び
図17は、学習者が発話する音声を録音する際の本実施形態の発話評価装置20の全体的な動作手順の一例を説明するフローチャートである。なお、
図17に示すステップS1f以降の処理は、
図13及び
図14と同様であるため、説明を省略する。なお、
図16及び
図17の説明を簡単にするために、手本の音声データは既に録音されており、第1分析データは入力され、学習者のテキストデータの発話時の音声が録音される例について説明する。
【0094】
図16において、入力部1は、学習対象となるテキストに対する手本の音声データを含む第1分析データとテキストデータとを取得し(S1a)、第1分析データとテキストデータとを録音部2に出力する。録音部2は、
図7〜
図10に示す第1録音パターン〜第4録音パターンのいずれかに従って、学習者が学習対象となるテキストを発話した音声をマイクロホンにおいて収音し(S1b)、入力部1から出力されたテキストデータと収音により得られた音声データとを対応付けて棄却部12に出力する(S1c)。
【0095】
棄却部12の処理を示すステップS2、ステップS2にて条件式を満たす場合の処理を示すステップS3については、
図12のステップS2,S3と同様であるため、説明を省略する。ステップS2にて条件式を満たさない場合、分析データ生成部3に第1分析データ及びステップS1bにて録音した学習者の音声データ(とテキストデータ)を分析データ生成部3に出力し(S1d)、ステップS1eへと進む。
【0096】
分析データ生成部3は、テキストデータと学習者の音声データとを用いて分析(例えば公知の音声認識処理を使用)することで、テキストデータに含まれるテキストの音声を構成する音素毎の開始時刻及び終了時刻を取得する(S1e)。例えば開始時刻及び終了時刻は、学習者の受信部10に対する入力操作により入力されてもよいし、音響モデルと音声データとのDP(Dynamic Programing)による強制アライメントによって得られてもよい。また、分析データ生成部3は、テキストデータと手本又は学習者の音声データとを用いて分析することで、手本又は学習者の音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち1つ以上を取得する(S1e)。音高又は音圧の変化量は所定区間に対して差分を取得する事によって得られる。音高又は音圧の変化量の変化量は、変化量の差分を計算する事によって得られる。また、音高又は音圧の最大値、最小値、極大値、極小値は変化量により得られる。また、話速は1分間に含まれる単語数(WPM:word per minute)、1分間に含まれる音節数等のいずれでもよい。
【0097】
これにより、分析データ生成部3は、手本に対する第1分析データと学習者の発話に対する第2分析データとを生成することができる。分析データ生成部3は、第2分析データを第1比較部4に出力し、更に、第1分析データ及び第2分析データを第2比較部5に出力する(S1f)。また、分析データ生成部3は、全てのデータ(例えば第1分析データ、第2分析データ)を制御部7に渡す(S1f)。
【0098】
次に、第1比較部4における音素列の誤り検出の詳細について、
図18を参照して説明する。
図18は、第1比較部4における誤り検出の動作手順の一例を説明するフローチャートである。
図18に示すフローチャートの例は、入力された発話時の音声データXに対し、尤度p(X|W’)が最大となる音素列W’を求め、この中で、本来の発話内容を示す音素列Wを構成する音素wiよりも尤度の高くなる音素wi’を見つけることで発話の誤りのある音素を検出する方法である。大文字のWは音素列、小文字のwは音素、iは音素列中の該当する音素の出現位置を示し、’(ダッシュ)は最大(もしくは最適)を示す。
【0099】
この方法は、例えば下記参考非特許文献1において具体的に開示されている公知技術であるが、第1比較部4における音素列の誤り検出の方法は参考非特許文献1に開示されている方法に限定されない。例えば、第2分析データから直接誤りがあるかどうかを判定する識別器(SVM:Support Vector Machine)を用いて誤りのある音素を検出してもよい。
【0100】
(参考非特許文献1) 電子情報通信学会論文誌 D Vol.J96−D,No.7,pp.1549−1565,2013
【0101】
図18において、第1比較部4は、第1データ管理部M1に格納されている各種データ(具体的には
図19(A)に示すテーブル)を参照し、1つ以上の比較対象音素列Wallを生成する(S2−1)。比較対象音素列Wallは、
図19(A)に示すテーブルを用いて、学習者が発話した音声の音声データの中から、音素毎に誤って発音(発話)される可能性のある音素又は比較対象音素を並べた音素列の全ての組み合わせである。
図19(A)は、音素毎の1つ以上の比較対象音素と評価対象の有無とが対応付けられたテーブルの一例を示す図である。
【0102】
図19(A)に示すテーブルでは、音素と、この音素が誤って発音される可能性のある比較対象音素C1,C2と、当該音素の誤り検出結果を指摘するか否かを定める評価対象の設定値とが対応付けて規定されている。例えば音素「ah」には、比較対象音素C1「aa」と比較対象音素C2「ao」と評価対象の設定値「×」とが対応付けて規定されている。音素「th」には、比較対象音素C1「s」と比較対象音素C2「th+uh」と評価対象の設定値「○」とが対応付けて規定されている。音素「v」には、比較対象音素C1「b」と評価対象の設定値「○」とが対応付けて規定されている。同様に音素「r」には、比較対象音素C1「l」と評価対象の設定値「○」とが対応付けて規定されている。
【0103】
第1比較部4は、ステップS2−1において生成した各比較対象音素列Wallの中で尤度が最大になる音素列W’を数式(1)に従って算定する(S2−2)。第1比較部4は、続いて音素列W’において個々の音素を見ていき、尤度が最大となる音素wi’について数式(2)を満たすか否かを判断する(S2−3)。ここで事前のアライメントにより音素wiに対応する音声データをxiとする。数式(2)の不等式の左辺は、誤りがあると考えられる音素の尤度と発話するべき正解音素の尤度の差を示し、第1比較部4は、この差が予め設定された定数αより小さい場合は(S2−3,NO)、入力された学習者の音声データは、発音の正確さに関する誤りが無いと判断する(S2−4)。
【0106】
一方、第1比較部4は、数式(2)を満たすと判断した場合には(S2−3,YES)、音素wi’を誤って発音している音素列W’と判断する(S2−5)。なお、数式(2)を満たすと判断した場合でも当該音素の誤り検出結果を指摘するか否かを定める評価対象の設定値が「×」であれば、当該音素は誤っていないと判断する(S2−3,NO。つまり、指摘しない)。この設定値は指導者が設定しても良い。また、この設定値は必ずしも必要でなく、
図19(A)の構成から省略されてもよい。
図19(B)は、音素毎の1つ以上の比較対象音素を用いた比較対象音素列の一例を示す図である。
図20は、第1比較部4における誤り検出に基づく指摘内容の一例を示す説明図である。
【0107】
図19(B)及び
図20では、例えば発話される音声が単語「right」である場合に、
図19(A)に示すテーブルを用いて、単語「right」の音素列を構成する音素毎に比較対象音素を組み合わせた比較対象音素列Wallが示されている。
図20に示す太い実線の矢印により結合される各音素の組み合わせは、
図18に示すステップS2−2において算定された音素列W’に対応する。例えば
図20に示すように、第1比較部4は、比較元音素列「right」の音素「r/ay/t」の発音が比較対象音素「l/ay/t/o」になっている旨を指摘内容として出力する。なお、制御部7は、
図20に示すように、本来正しく発音されるべき音素が間違って発音された音素を識別可能に表示部9に表示させる(
図20に示す下線部の比較対象音素「l」,「o」参照)。
【0108】
次に、第2比較部5における第1分析データと第2分析データとを用いた分析の詳細について、
図21を参照して説明する。
図21は、第2比較部5における差分の分析処理の動作手順の一例を説明するフローチャートである。
図22は、手本の音声に対応する第1分析データの第1例を示す図である。
図23は、学習者の音声に対応する第2分析データの第1例を示す図である。
図24は、手本の音声に対応する第1分析データの第2例を示す図である。
図25は、学習者の音声に対応する第2分析データの第2例を示す図である。
【0109】
図21において、第2比較部5は、第2データ管理部M2を参照し、第2データ管理部M2に格納されている分析対象項目毎に必要となるデータの差分(即ち、棄却部12もしくは分析データ生成部3から出力された第1分析データと第2分析データとの差分)を算定する(S3−1)。第1分析データと第2分析データとの差分は、手本の音声データに対応する第1分析データと学習者の発話に対応する第2分析データとの差分を示す(
図26、
図27参照)。
図26は、手本の音声に対応する第1分析データと学習者の音声に対応する第2分析データとの音高及び音圧の変化量、変化量の変化量の差分と、話速の差分の一例を示す図である。
図27は、手本の音声に対応する第1分析データと学習者の音声に対応する第2分析データとの差分の第2例を示す図である。
【0110】
図22では、例えば、単語(ラベル、音素列)「turn」が開始時刻「300」から終了時刻「520」まで発話され、無音状態(ショートポーズ、SP)が開始時刻「520」から終了時刻「600」まで継続し、単語「right」が開始時刻「600」から終了時刻「920」まで発話される。一方、
図23では、単語「turn」が開始時刻「320」から終了時刻「550」まで発話され、無音状態(ショートポーズ、SP)が開始時刻「550」から終了時刻「630」まで継続し、単語「right」が開始時刻「630」から終了時刻「940」まで発話される。なお、第2比較部5は、単語毎ではなく音素毎に、開始時刻と終了時刻を算定してもよい。
【0111】
図24では、一例として時刻Tiにおける手本の音声データに対応する音高、音高の変化量、音高の変化量の変化量(音高変化量Δの1つ右側のΔΔ参照)、音圧、音圧の変化量、音圧の変化量の変化量(音圧変化量Δの1つ右側のΔΔ参照)、話速を含む第1分析データEmが示されている。mは手本の音声データであることを示す添え字である。同様に、
図25では、時刻Tiにおける学習者の発話に対する音声データに対応する音高、音高の変化量、音高の変化量の変化量(音高変化量Δの1つ右側のΔΔ参照)、音圧、音圧の変化量、音圧の変化量の変化量(音圧変化量Δの1つ右側のΔΔ参照)、話速を含む第2分析データEnが示されている。nは学習者の発話に対する音声データであることを示す添え字である。なお、複雑化を避けるため、
図24、
図25共に「It’s OK」に相当する時刻に関する音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速の値を記述している。なお、例えば変化量は所定区間の最大値(極大値)、最小値(極小値)を算出する際に用い、変化量の変化量は音高又は音圧の変化の度合い(例えば音高の立ち上がりの度合い、
図3又は
図4に示す手本と学習者の音高又は音圧の概形)の差を算出する際に用いる。
【0112】
図26では、一例として時刻Tiにおける手本の音声データと学習者の発話に対する音声データに対応する音高、音高の変化量、音高の変化量の変化量(音高変化量Δの1つ右側のΔΔ参照)、音圧、音圧の変化量、音圧の変化量の変化量(音圧変化量Δの1つ右側のΔΔ参照)、話速の各差分値が示されている。
図27では、ラベル(Label、例えば音素又は音素列又は単語)とラベル毎の時間長の差分値が示されている。なお、時間長の差(Lbdur(Li))はショートポーズ(SP)以外のラベルLiにおける手本と学習者の時間長の差を示し、無音区間長の差(Spdur(Li))はショートポーズ(SP)に相当するラベルLiにおける手本と学習者のショートポーズ(SP)の時間長の差を示している。
【0113】
第2比較部5は、ステップS3−1において算定した第1分析データと第2分析データとの差分(
図26、
図27参照)と、第2データ管理部M2において保持される予め定められた発話時の流暢さに関する分析対象項目毎の条件式(
図28(A)参照)とを比較する(S3−2)。
図28(A)は、第2比較部5における分析対象項目と分析対象項目毎の条件式と評価対象の有無とが対応付けられたテーブルの一例を示す図である。
【0114】
図28(A)では、発話の流暢さを客観的に評価するための分析対象項目A1〜A5毎に、分析対象となる算定値又は取得値(即ち、第1分析データ及び第2分析データから得られた値)と条件式と第2比較部5の出力として指摘内容に含めるか否かを示す設定値とが対応付けて示されている。分析対象項目A1,A5に対応する評価対象の設定値は「×」であるため、分析対象項目A1,A5に関しては条件式を満たすかどうかの判別をしない、もしくは分析対象項目A1,A5に関しては指摘内容を学習者には提示されないことになる。一方、分析対象項目A2〜A4に対応する評価対象の設定値は「○」であるため、分析対象項目A2〜A4に関しては条件式を満たすかどうかの判別をする、もしくは分析対象項目A2〜A4に関しては指摘内容を学習者には提示される。なお、Lmiは手本のラベルLiを示し、Lniは学習者のラベルLiを示す。また、この設定値は指導者が設定しても良い。また、この設定値は必ずしも必要でなく、省略されてもよい(すなわち、すべて「○」になる)。
【0115】
第2比較部5は、ステップS3−1において算定した第1分析データと第2分析データとの差分が
図28(A)に示す分析対象項目毎の条件式を満たすと判断した場合には(S3−2,YES)、条件式を満たす分析対象項目において学習者の発話の流暢さに関する評価として誤りがあると判断し、誤りがあると判断した指摘対象文字列と指摘内容とを取得して出力する(S3−3、
図28(B)参照)。
図28(B)は、第2比較部5における分析対象と指摘内容とが対応付けられたテーブルの一例を示す図である。
【0116】
図28(B)では、
図28(A)の条件式を満たす場合にそれぞれ分析対象項目A1「音素もしくは単語のデュレーション」に関して、『単語「Li」で言いよどみ、詰まりの可能性があります。手本をよく聞いて再度発話してみましょう 』と指摘されること、分析対象項目A2「無音のデュレーション」に関して、『前に余計な呼気が含まれてます。手本をよく聞いて息継ぎするタイミングに気を付けましょう 』と指摘されること、分析対象項目A3「話速」に関して、『手本に比べて、かなりゆっくりです』と指摘されること、分析対象項目A4「音圧の最大値を持つラベル位置の差」に関して、『手本と異なる位置にアクセントがあります。手本は単語「Lmi」で強く発声します』と指摘されること、分析対象項目A5「音高の最大値を持つラベル位置の差」に関して、『手本とイントネーションが異なります。手本は単語「Lmi」で高く発声します』と指摘されることがそれぞれ示されている。例えば、分析対象項目A3は
図28(A)に示すように評価対象の設定値は「○」であるため、第1分析データと第2分析データとの差分が
図28(A)に示す分析対象項目A3の条件式を満たすかどうか判別をおこなう。
図26に示すように話速の第1分析データと第2分析データの差分は「14」であり、
図28(A)の分析対象項目A3の条件式を満たさないため、学習者に提示しない。また、分析対象項目A4は
図28(A)に示すように評価対象の設定値は「○」であるため、第1分析データと第2分析データとの差分が
図28(A)に示す分析対象項目A4の条件式を満たすかどうか判別をおこなう。
図24より、第1分析データの音圧の変化量がプラスの値の後、ゼロとなり、その後がマイナスの値となるのは時刻「1040」であり、
図22より時刻「1040」に相当するラベル(Lmi)はL5「It’s」である(つまり、「It’s OK」の音圧の最大値を持つラベルが「It’s」)。一方、
図25より、第2分析データの音圧の変化量がプラスの値の後、ゼロとなり、その後がマイナスの値となるのは時刻「1340」であり、
図23より時刻「1340」に相当するラベル(Lni)はL7「OK」である(つまり、「It’s OK」の音圧の最大値を持つラベルが「OK」)。
図28(A)の分析対象項目A4の条件式Lmi≠Lniを満たすため、学習者に『手本と異なる位置にアクセントがあります。手本は単語「It’s(Lmi)」で強く発声します』を提示する。なお、分析対象項目A4では音圧の最大値を用いて判別を行ったが、音圧の最小値としてもよいし、音圧の変化量の変化量又は音圧の極大値又は、音圧の極小値を用いてもよい。各項目(音圧の最小値、音圧の変化量の変化量、音圧の極大値、音圧の極小値)を用いることでより詳細な判別が可能となる。また、音高を用いた第1分析データと第2分析データとの分析は、音圧と同様のため、説明を省略する。
【0117】
一方、第2比較部5は、ステップS3−1において算定した第1分析データと第2分析データとの差分が
図28(A)に示す分析対象項目毎の条件式をいずれも満たさないと判断した場合には(S3−2,NO)、学習者の発話の流暢さに関する評価として誤りがないと判断し、誤りが無い旨を取得して出力する(S3−4)。
【0118】
図30(A)は、第2比較部5における分析対象項目とスコア算定時の重み係数jとスコア種別とが対応付けられたテーブルの一例を示す図である。
図30(B)は、第1比較部4におけるスコア算定時の重み係数jとスコア種別とが対応付けられたテーブルの一例を示す図である。
図30(C)は、スコア種別とスコア名称とが対応付けられたテーブルの一例を示す図である。
【0119】
図30(C)に示すように、スコア種別「S1」に対応するスコア名称は「正確さ」であり、第1比較部4により正確さに関するスコアが算定される。また、スコア種別「S2」に対応するスコア名称は「流暢さ」であり、第2比較部5により流暢さに関するスコアが算定される。
【0120】
図30(A)に示すように、分析対象項目A1に対応する重み係数jは「1.0」であり、分析対象項目A2に対応する重み係数jは「0.9」であり、分析対象項目A4に対応する重み係数jは「0.7」であり、分析対象項目A5に対応する重み係数jは「0.6」である。なお、分析対象項目A3に対応する重み係数jは規定されていない。これは分析対象項目A3についてはスコア算定時に用いない事を示している。
図30(B)に示すように、スコア種別「S1」(即ち、正確さに関するスコア)に対応する重み係数jは「1.0」である。また、この重み係数jは指導者が設定しても良い。
【0121】
ここで、第1比較部4は、学習者の発音の正確さに関するスコアを、数式(3)に従って算定して第1データ管理部M1に格納する。数式(3)において、iは発話された音声を構成する全ての音素数(総音素数)の序数を示し、発音の正確さに関するスコアは0から1までの値である。
【0123】
同様に、第2比較部5は、学習者の発話の流暢さに関するスコアを、数式(4)に従って算定して第2データ管理部M2に格納する。数式(4)において、iは発話された音声を構成する全ての音素数(総音素数)の序数を示し、発話の流暢さに関するスコアは0から1までの値である。
【0125】
更に、制御部7は、第1データ管理部M1に格納される発音の正確さに関するスコア(数式(3)参照)と第2データ管理部M2に格納される発話の流暢さに関するスコア(数式(4)参照)との和(数式(5)参照)により、学習者の発話に関する全体スコアを算定する。
【0127】
図31(A)は、指導者のIDでログインした際に表示される学習者の学習履歴の一覧表示の抜粋の一例を示す図である。
図31(B)は、学習者のIDでログインした際に表示される各自の学習履歴の一覧表示の抜粋の一例を示す図である。
図31(A)に示す学習履歴の一覧では、学習者、実施日(学習日)、学習対象となるテキストを含むコンテンツ、スコア、指摘件数、指摘対象文字列、指摘内容の各項目に対する内容を示すデータが対応付けて示される。
図31(A)に示す学習履歴の一覧は指導者のIDでログインされた結果として表示されるので、指導者にとって俯瞰性の高い学習者毎の学習履歴の一覧が示されている。一方、
図31(B)に示す学習履歴の一覧は或る学習者のIDでログインされた結果として表示されるので、学習者にとって俯瞰性の高い実施日(学習日)毎の学習履歴の一覧が示されている。
【0128】
図31(A)又は
図31(B)に示す各学習履歴では、学習履歴を示すレコード毎に「確認する」のハイパーリンクが設けられており、例えばユーザ(例えば学習者、指導者)の受信部10に対する入力操作として、カーソルCSRを「確認する」のハイパーリンクに近づけてクリック操作すると、制御部7は、クリック操作されたレコードに対応する学習履歴のデータを履歴管理部8から読み出して、
図32に示す学習履歴の詳細な内容を示す画面WD1を表示部9に表示させる。
図32は、
図31の「確認する」のハイパーリンクのクリック操作に伴う学習履歴の詳細表示の一例を示す図である。なお、
図32の学習履歴の詳細を表示する画面は
図2の学習者が発話した音声に対する指摘対象文字列と指摘内容とを示した画面と同様でよく、同様の機能(例えば、学習者もしくは手本の音声データを再生すること及びこの再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示すること、所定の選択操作に応じて指定されたテキストデータ内の文字列を起点に、当該文字列から音声データを再生すること)を提供してもよい。
【0129】
図32では、学習対象となるテキスト「Turn right. It’s OK. This is a pen.」の3つの文章が表示されており、単語「right」の音素「r」が指摘対象文字列として他の文字列と比べて識別可能に示され(下線参照)、単語「OK」の音素「O」が指摘対象文字列として他の文字列と比べて識別可能に示され(下線参照)、更に、単語「is」の音素「i」が指摘対象文字列として他の文字列と比べて識別可能に示されている(下線参照)。
【0130】
制御部7は、ユーザ(例えば学習者又は指導者)の受信部10に対する入力操作として、表示部9の画面WD1に表示されたカーソルCSRを指摘対象文字列である音素「r」に重ね合わせると(ロールオーバ)、例えば音素「r」に関して第1比較部4が検出した誤りについての指摘内容CM3(第1指摘内容)として『right[r/ay/t]の発音が[
l/ay/t/
o]になっています 』を、指摘対象文字列である音素「r」の周囲に表示させる。
【0131】
また、制御部7は、ユーザ(例えば学習者)の受信部10に対する入力操作として、表示部9の画面WD1に表示されたカーソルCSRを指摘対象文字列である音素「O」に重ね合わせると(ロールオーバ)、例えば音素「O」に関して第2比較部5が検出した分析対象項目の誤りについての指摘内容CM4(第2指摘内容)として『手本と異なる位置にアクセントがあります。手本は単語「It’s」で強く発声します』を、指摘対象文字列である音素「O」の周囲に表示させる。
【0132】
更に、制御部7は、ユーザ(例えば学習者)の受信部10に対する入力操作として、表示部9の画面WD1に表示されたカーソルCSRを指摘対象文字列である音素「i」に重ね合わせると(ロールオーバ)、例えば音素「i」に関して第2比較部5が検出した分析対象項目の誤りについての指摘内容CM5(第2指摘内容)として『前に余計な呼気が含まれています。手本をよく聞いて息継ぎするタイミングに気を付けましょう』を、指摘対象文字列である音素「i」の周囲に表示させる。
【0133】
以上により、本実施形態の発話評価装置20は、手本もしくはユーザの発話に対する音声データもしくは第1分析データもしくは第2分析データに基づき、棄却を行うか否かの判別を棄却部12において行い、予め定められた音響モデルを用いて、ユーザ(例えば学習者)の発話に対する音声データの音素列の誤り検出を第1比較部4において行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとの差分を第2比較部5において算定して分析する。発話評価装置20は、第1比較部4又は第2比較部5の出力が所定の条件式又は分析対象項目毎の条件式を満たす場合は、音素位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部9に提示(表示)させる。
【0134】
これにより、発話評価装置20は、例えば音読やシャドーイングの際に学習者(ユーザの一例)が発話した時の音声に対する誤り検出、手本に対応する第1分析データと学習者自身の発話に対応する第2分析データとの差分を用いた分析により、学習者の発話した音声に対する客観的な評価を行うことで、学習者における学習(例えば外国語学習)を効率的に支援することができ、また指導者(ユーザの他の一例)において学習者の音読やシャドーイングにより得られた音声データを添削する際の工数(手間)を効率的に削減することができる。
【0135】
また、発話評価装置20は、手本もしくはユーザの発話に対する音声データもしくは第1分析データもしくは第2分析データに基づき、棄却を行うか否かの判別をおこなうことができ、特にシャドーイングによって得られる可能性が高い崩れた不明瞭な音声データに対し、棄却することで当該ユーザに誤った指摘を提示する可能性が小さくなる。
【0136】
また、発話評価装置20は、第1比較部4又は第2比較部5の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて指摘内容を変更して提示することができる。
【0137】
また、発話評価装置20は、手本の音声データ又はユーザの発話に対する音声データを予め用意しなくても、必要に応じて手本となるネイティブの発話に対する音声を手本の音声データとして録音することができ、学習者であるユーザの発話に対する音声を録音することができ、また、手本の音声データに対応する第1分析データ又は学習者の発話に対する音声データに対応する第2分析データを生成することで誤り検出や差分分析に資することができる。
【0138】
また、発話評価装置20は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音高の分析結果を考慮した上で、音高の誤りに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0139】
また、発話評価装置20は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音圧の分析結果を考慮した上で、音圧の誤りに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0140】
また、発話評価装置20は、手本の音声データ及びユーザの発話に対する音声データについて、手本となるネイティブの話速とユーザ(例えば学習者)の話速との比較結果を考慮した上で、話速の誤りに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0141】
また、発話評価装置20は、手本の音声データ及びユーザの発話に対する音声データについて、音高又は音圧の変化量、音高又は音圧の変化量の変化量の分析結果を考慮した上で、音高又は音圧の変化量、変化量の変化量、極小値、極大値、最小値及び最大値のうちいずれかに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0142】
また、発話評価装置20は、第1比較部4において用いる所定の条件式、第2比較部5における分析対象項目A1〜A5毎の条件式として、手本の音声データ又はテキストデータ毎に異なる値を用いるので、ユーザ(例えば学習者)の学習レベルに応じて、客観的な評価を柔軟に行うことができる。
【0143】
また、発話評価装置20は、ユーザ(例えば学習者)の発話に対する音声データに対応する第1指摘事項(例えば発音の正確性に関する指摘事項)として、テキストデータに含まれるいずれかの比較元音素が所定の1つ以上の比較対象音素のうちいずれかである旨を表示部9に提示するので(
図2又は
図11又は
図20参照)、学習者の発音がどのように誤っているか(例えば学習者の発話時の音声のどの音素がどの比較対象音素となっているか)を学習者に対して明確に示唆することができる。
【0144】
また、発話評価装置20は、ユーザ(例えば指導者)の入力操作に応じて、第2比較部5において分析対象となる分析対象項目A1〜A5毎に分析するか否かの対応関係又は第1比較部4において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係が予め規定され、この対応関係は柔軟に変更することができるので(例えば指導者のIDでログインされた場合に指導者の受信部10に対する入力操作によって適宜、修正、追加、削除されてもよい)、学習者のレベル、指導者の目的に合わせた柔軟な評価を客観的に行うことができる。
【0145】
また、発話評価装置20は、ユーザ(例えば学習者)の所定の入力操作に応じて、第1録音パターン、第2録音パターン、第3録音パターン及び第4録音パターンのうちいずれかを選択するので、学習者のレベル又は学習目的に沿った上で学習者の発話時の音声を簡易に録音することができる。
【0146】
また、発話評価装置20は、学習者に対して種々の観点において指摘する必要があると判断した指摘対象文字列を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列を指摘対象文字列以外の文字列と明確に区別して注意を喚起することができる。
【0147】
また、発話評価装置20は、指摘対象文字列が複数ある場合には、指摘対象文字列に対応する指摘内容毎にそれぞれ識別可能に提示するので、指摘対象文字列毎に異なる指摘内容があることを学習者に明確に提示することができる。
【0148】
また、発話評価装置20は、指摘対象文字列に対する所定の入力操作(例えばカーソルを指摘対象文字列に重ねるロールオーバ)に応じて、指摘対象文字列に対応する指摘内容を指摘対象文字列の周辺に提示するので、指摘対象文字列毎の指摘内容の詳細を簡易な操作によって学習者に確認させることができる。
【0149】
また、発話評価装置20は、第1比較部4における誤り検出に関する第1スコア(数式(3)参照)と第2比較部5における分析に関する第2スコア(数式(4)参照)とを算定し、算定結果(第1スコア、第2スコア、第1スコア及び第2スコアの和(数式(5)参照))を提示するので、学習者に対する学習の動機づけ又は学習の効果を明確に示唆することができる。
【0150】
また、発話評価装置20は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音高と各時刻における音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音高の分析結果を手本の音声の音高の分析結果と対比的かつ視覚的に確認させることができる。
【0151】
また、発話評価装置20は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音圧と各時刻における音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音圧の分析結果を手本の音声の音圧の分析結果と対比的かつ視覚的に確認させることができる。
【0152】
また、発話評価装置20は、指摘対象文字列に対応する音高の該当部分を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列に対応する音高の該当部分を的確に把握させることができる。
【0153】
また、発話評価装置20は、指摘対象文字列に対応する音圧の該当部分を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列に対応する音圧の該当部分を的確に把握させることができる。
【0154】
また、発話評価装置20は、所定の入力操作に応じて、テキストデータに対応する手本の音声データ及びユーザの発話時の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示するので、再生中の音声の進行状況を学習者に的確に把握させることができる。
【0155】
また、発話評価装置20は、指摘対象文字列を含むテキストデータに対する所定の指定操作に応じて、指定されたテキストデータの単語を起点に、手本の音声データ及びユーザの発話時の音声データを再生することができるので、学習者が聞きたい単語から音声データを学習者に対して聞かせることができる。
【0156】
また、発話評価装置20は、指摘対象文字列を含むテキストデータに対する所定の指定操作に応じて、指定されたテキストデータの単語を起点に、手本の音声又はユーザの発話時の音声のうち一方を再生し、その後連続して手本の音声又はユーザの発話時の音声のうち他方の音声を再生することができるので、学習者が聞きたい単語の音声を聞き比べさせることができる。
【0157】
また、発話評価装置20は、学習者が過去に実施した第1比較部の誤り検出の結果又は第2比較部の分析結果又は指摘対象文字列及び指摘内容と、当該実施したテキストデータ及び音声データと、学習者又は実施日(学習日)又はスコア又は指摘件数のいずれかの組み合わせを示すデータが対応付けて示される学習履歴の一覧を管理するので、学習者にとって俯瞰性が高い。また、この学習履歴の一覧に対する所定の選択操作に応じて、選択された学習履歴に対応する選択された学習履歴に対応するテキストデータと、指摘対象文字列と指摘内容が存在する場合は当該指摘対象文字列と指摘内容とを示した画面を提示し、選択された学習履歴に対応する学習者もしくは手本の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示し、所定の選択操作に応じて指定されたテキストデータ内の文字列を起点に、当該文字列から音声データを再生させることが出来るので、学習者は過去実施した学習の詳細な内容を使い勝手良く確認することができる。
【0158】
最後に、本発明に係る発話評価装置、発話評価方法及びプログラムの構成、作用、効果について説明する。
【0159】
本発明の一実施形態は、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとを入力する入力部と、前記手本又は前記ユーザの発話に対する音声データ、前記第1分析データもしくは前記第2分析データが所定の棄却条件式を満たす場合に棄却を行う棄却部と、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第1比較部と、前記第1分析データと前記第2分析データとの差分を算定して分析する第2比較部と、前記第1比較部において比較対象となる音素の組み合わせと所定の条件式と第1指摘内容との組み合わせを保持する第1データ管理部と、前記第2比較部において分析対象となる分析対象項目と前記分析対象項目毎の条件式と第2指摘内容との組み合わせを保持する第2データ管理部と、前記第1比較部又は前記第2比較部の出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える、発話評価装置である。
【0160】
この構成では、発話評価装置は、手本もしくはユーザの発話に対する音声データもしくは第1分析データもしくは第2分析データが所定の棄却条件式を満たす場合に棄却を行い、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を第1比較部において行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとの差分を第2比較部において算定して分析する。発話評価装置は、第1比較部又は第2比較部の出力が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部に提示させる。
【0161】
これにより、発話評価装置は、例えば音読やシャドーイングの際に学習者(ユーザの一例)が発話した時の音声に対する誤り検出、手本に対応する第1分析データと学習者の発話に対応する第2分析データとの差分を用いた分析により、学習者の発話した音声に対する客観的な評価を行うことで、学習者における自学習(例えば外国語学習)を効率的に支援することができ、また指導者(ユーザの他の一例)において学習者の音読やシャドーイングにより得られた音声データを添削する際の工数(手間)を効率的に削減することができる。
【0162】
また、本発明の一実施形態は、前記棄却部は、前記手本もしくは前記ユーザの発話に対する音声データの音高、音圧、音声データ長又は無音の継続時間長のいずれか1つが前記所定の棄却条件式を満たす場合に棄却を行う、発話評価装置である。
【0163】
この構成によれば、発話評価装置は、特にシャドーイングによって得られる可能性が高い崩れた不明瞭な音声データ又は分析データに対し、即座に棄却することができ、当該ユーザに対し、処理時間によるストレスを与える事なく、更に誤った指摘を提示する可能性が小さくなる。
【0164】
また、本発明の一実施形態は、前記制御部は、前記第1比較部及び前記第2比較部の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて、前記音素位置を含む1文字以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる発話評価装置である。
【0165】
この構成によれば、発話評価装置は、第1比較部及び前記第2比較部の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて指摘対象文字列と指摘内容とを提示するため、誤った指摘を提示する可能性が小さくなる。
【0166】
また、本発明の一実施形態は、前記手本の音声データ又は前記ユーザの発話に対する音声データを録音する録音部と、前記録音部により録音された、前記手本の音声データに対応する前記第1分析データ、又は前記ユーザの発話に対する音声データに対応する前記第2分析データを生成する分析部と、を更に備える、発話評価装置である。
【0167】
この構成によれば、発話評価装置は、手本の音声データ又はユーザの発話に対する音声データを予め用意しなくても、必要に応じて手本となるネイティブの発話に対する音声データとして録音することができ、又は学習者であるユーザの発話に対する音声を録音することができ、また、手本の音声データに対応する第1分析データ又は学習者の発話に対する音声データに対応する第2分析データを生成することで誤り検出や差分分析に資することができる。
【0168】
また、本発明の一実施形態は、前記第1分析データ及び前記第2分析データに、音高の分析結果が含まれ、前記分析対象項目に、前記音高に関する指摘内容の情報が含まれる、発話評価装置である。
【0169】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高の分析結果を考慮した上で、音高の誤りに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0170】
また、本発明の一実施形態は、前記第1分析データ及び前記第2分析データに、音圧の分析結果が含まれ、前記分析対象項目に、前記各時刻における音圧に関する指摘内容の情報が含まれる、発話評価装置である。
【0171】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音圧の分析結果を考慮した上で、音圧の誤りに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0172】
また、本発明の一実施形態は、前記第1分析データ及び前記第2分析データに、話速の分析結果が含まれ、前記分析対象項目に、前記話速に関する指摘内容の情報が含まれる、発話評価装置である。
【0173】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、手本となるネイティブの話速とユーザ(例えば学習者)の話速との比較結果を考慮した上で、話速の誤りに関する指摘内容をユーザ(例えば学習者、指導者)に対して提示することができる。
【0174】
また、本発明の一実施形態は、前記第1分析データ及び前記第2分析データに、音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかの分析結果が含まれ、前記分析対象項目に、前記音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかに関する情報が含まれる、発話評価装置である。
【0175】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高又は音圧の変化量(即ち、音高又は音圧の変化度合い)、極小値、極大値、最小値、最大値のうちいずれかの分析結果を考慮した上で、音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかの誤りに関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0176】
また、本発明の一実施形態は、前記第1分析データ及び前記第2分析データに、音高又は音圧の変化量の変化量の分析結果が含まれ、前記分析対象項目に、前記各音高又は音圧の変化量の変化量に関する情報が含まれる、発話評価装置である。
【0177】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高又は音圧の変化量の変化量の分析結果を考慮した上で、音高又は音圧の変化量の変化量に関する指摘対象文字列をユーザ(例えば学習者、指導者)に対して提示することができる。
【0178】
また、本発明の一実施形態は、前記第1データ管理部が保持する前記所定の条件式、及び前記第2データ管理部が保持する前記分析対象項目毎の条件式は、それぞれ前記手本の音声データ又は前記テキストデータ毎に異なる、発話評価装置である。
【0179】
この構成によれば、発話評価装置は、第1比較部において用いる所定の条件式、第2比較部における分析対象項目毎の条件式として、手本の音声データ又はテキストデータ毎に異なる値を用いるので、ユーザ(例えば学習者)の学習レベルに応じて、客観的な評価を柔軟に行うことができる。
【0180】
また、本発明の一実施形態は、前記制御部は、前記ユーザの発話に対する音声データに対応する前記第1比較部からの前記第1指摘内容として、前記テキストデータに含まれるいずれかの比較元音素が所定の1つ以上の前記比較対象となる音素の組み合わせのうちいずれかである旨を前記表示部に提示させる、発話評価装置である。
【0181】
この構成によれば、発話評価装置は、ユーザ(例えば学習者)の発話に対する音声データに対応する第1指摘事項(例えば発音の正確性に関する指摘事項)として、テキストデータに含まれるいずれかの比較元音素が所定の1つ以上の比較対象となる音素の組み合わせのうちいずれかである旨を表示部に提示するので、学習者の発音がどのように誤っているか(例えば、学習者の発話時の音声のどの音素がどの比較対象音素となっているか)を学習者に対して明確に示唆することができる。
【0182】
また、本発明の一実施形態は、前記第2比較部にて分析対象となる前記分析対象項目毎に分析するか否かの対応関係、又は前記第1比較部において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係が予め規定され、前記対応関係は、所定の入力操作に応じて変更可能である、発話評価装置である。
【0183】
この構成によれば、発話評価装置は、ユーザ(例えば指導者)の入力操作に応じて、第2比較部において分析対象となる分析対象項目毎に分析するか否かの対応関係又は第1比較部において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係を、柔軟に変更することができるので、学習者のレベル又は指導者の目的に合わせた柔軟な評価を客観的に行うことができる。
【0184】
また、本発明の一実施形態は、少なくとも前記手本の音声データを再生する再生部、を更に備え、前記制御部は、前記ユーザの発話に対する音声データが前記録音部により録音される場合、前記ユーザの所定の入力操作に応じて、前記テキストデータを前記表示部に提示させる第1録音パターン、前記手本の音声データを前記再生部に再生させる第2録音パターン、前記テキストデータを前記表示部に提示させ、更に、前記手本の音声データの音声を出力しないで前記再生部に再生させ、前記再生部による前記音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる第3録音パターン、前記テキストデータを前記表示部に提示させ、更に、前記手本の音声データの音声を出力しながら前記再生部に再生させ、前記再生部による前記音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる第4録音パターン、のいずれかを実行する、発話評価装置である。
【0185】
この構成によれば、発話評価装置は、ユーザ(例えば学習者)の所定の入力操作に応じて、第1録音パターン、第2録音パターン、第3録音パターン及び第4録音パターンのうちいずれかを選択するので、学習者のレベル又は学習目的に沿った上で学習者の発話時の音声を簡易に録音することができる。
【0186】
また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列を識別可能に前記表示部に提示させる、発話評価装置である。
【0187】
この構成によれば、発話評価装置は、学習者に対して種々の観点において指摘する必要があると判断した指摘対象文字列を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列を指摘対象文字列以外の文字列と明確に区別して注意を喚起することができる。
【0188】
また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列に対応する指摘内容毎に識別可能に前記表示部に提示させる、発話評価装置である。
【0189】
この構成によれば、発話評価装置は、指摘対象文字列が複数ある場合には、指摘対象文字列に対応する指摘内容毎に識別可能に提示するので、指摘対象文字列毎に異なる指摘内容があることを学習者に明確に提示することができる。
【0190】
また、本発明の一実施形態は、前記制御部は、前記表示部に提示された前記指摘対象文字列に対する所定の入力操作に応じて、前記指摘対象文字列に対応する指摘内容を前記指摘対象文字列の周辺に提示させる、発話評価装置である。
【0191】
この構成によれば、発話評価装置は、指摘対象文字列に対する所定の入力操作(例えばカーソルを指摘対象文字列に重ねるロールオーバ)に応じて、指摘対象文字列に対応する指摘内容を指摘対象文字列の周辺に提示するので、指摘対象文字列毎の指摘内容の詳細を簡易な操作によって学習者に確認させることができる。
【0192】
また、本発明の一実施形態は、前記制御部は、前記第1比較部における誤り検出に関する第1スコア又は前記第2比較部における分析に関する第2スコアを算定し、前記第1スコア、前記第2スコア又は前記第1スコアと前記第2スコアとの双方より得られる1つのスコアを前記表示部に提示させる、発話評価装置である。
【0193】
この構成によれば、発話評価装置は、第1比較部における誤り検出に関する第1スコア又は第2比較部における分析に関する第2スコアを算定し、算定結果(第1スコア、第2スコア、又は例えば第1スコア及び第2スコアの和)を提示するので、学習者に対する学習の動機づけ又は学習の効果を明確に示唆することができる。
【0194】
また、本発明の一実施形態は、前記制御部は、前記音高と前記音素もしくは前記音素を含む文字列とを対応付けて可視化して前記表示部に提示させる、発話評価装置である。
【0195】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高と音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音高の分析結果を音素もしくは音素を含む文字列又は手本の音声の音高の分析結果と対比的かつ視覚的に確認させることができる。
【0196】
また、本発明の一実施形態は、前記制御部は、前記音圧と前記音素もしくは前記音素を含む文字列とを対応付けて可視化して前記表示部に提示させる、発話評価装置である。
【0197】
この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音圧と音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音圧の分析結果を音素もしくは音素を含む文字列又は手本の音声の音圧の分析結果と対比的かつ視覚的に確認させることができる。
【0198】
また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列又は前記指定対象文字列に対応する前記音高の該当箇所を識別可能に前記表示部に提示させる、発話評価装置である。
【0199】
この構成によれば、発話評価装置は、指摘対象文字列に対応する音高の該当部分を識別可能に提示するので、学習者に確認するべき指摘対象文字列に対応する音高の該当部分を的確に把握させることができる。
【0200】
また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列又は前記指摘対象文字列に対応する前記音圧の該当箇所を識別可能に前記表示部に提示させる、発話評価装置である。
【0201】
この構成によれば、発話評価装置は、指摘対象文字列に対応する音圧の該当部分を識別可能に提示するので、学習者に確認するべき指摘対象文字列に対応する音圧の該当部分を的確に把握させることができる。
【0202】
また、本発明の一実施形態は、少なくとも前記手本又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、前記制御部は、所定の入力操作に応じて、前記表示部に提示された前記テキストデータに対応する前記手本又は前記ユーザの発話に対する音声データを前記再生部に再生させ、更に、前記再生部による前記手本又は前記ユーザの発話に対する音声データの音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる、発話評価装置である。
【0203】
この構成によれば、発話評価装置は、所定の入力操作に応じて、テキストデータに対応する手本又はユーザの発話時の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示するので、再生中の音声の進行状況を学習者に的確に把握させることができる。
【0204】
また、本発明の一実施形態は、少なくとも前記手本又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、前記制御部は、前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、前記手本又は前記ユーザの発話に対する音声データ内の当該文字列に相当する位置から前記再生部にて再生させる、発話評価装置である。
【0205】
この構成によれば、発話評価装置は、テキストデータに対する所定の指定操作に応じて、指定されたテキストデータの文字列を起点に、手本の音声データ又はユーザの発話時の音声データを再生することができるので、学習者が聞きたい文字列から音声データを学習者に対して聞かせることができる。
【0206】
また、本発明の一実施形態は、少なくとも前記手本の音声データ又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、前記制御部は、前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、当該文字列に相当する前記手本の音声データの位置又は前記ユーザの発話に対する音声データの位置のいずれか一方の当該位置から前記再生部にて再生させ、連続して他方の音声データの当該位置から前記再生部にて再生させる、発話評価装置である。
【0207】
この構成によれば、発話評価装置は、テキストデータに対する所定の指定操作に応じて、指定されたテキストデータ内の文字列を取得し、当該文字列に相当する手本の音声データの位置又はユーザの発話時の音声データの位置のいずれか一方の当該位置から再生し、その後連続して他方の音声の当該位置から再生することができるので、学習者が聞きたい文字列を聞き比べさせることができる。
【0208】
また、本発明の一実施形態は、前記学習者の過去の学習に対応した前記第1比較部の誤り検出の結果、前記第2比較部の分析結果又は前記指摘対象文字列及び前記指摘内容と、当該学習時のテキストデータ及び音声データと、学習者、学習日、スコア又は指摘件数のいずれかとの組み合わせを示すデータが対応付けて示される、学習履歴の一覧を管理する履歴管理部と、選択された前記学習履歴に対応する前記手本又は前記ユーザの音声データを再生する再生部と、を更に備え、前記制御部は、前記学習履歴の一覧に対する所定の選択操作に応じて、選択された前記学習履歴に対応した前記テキストデータと前記指摘対象文字列と前記指摘内容とが存在する場合は当該指摘対象文字列と指摘内容とを示した画面を前記表示部にて提示し、所定の選択操作に応じて、前記再生部による前記手本又は前記ユーザの発話に対する音声データの音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させ、又は前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、前記手本又は前記ユーザの発話に対する音声データ内の当該文字列に相当する位置から前記再生部にて再生させる、発話評価装置である。
【0209】
この構成によれば、発話評価装置は、学習者が過去に実施した第1比較部の誤り検出の結果又は第2比較部の分析結果又は指摘対象文字列及び指摘内容と、当該実施したテキストデータ及び音声データと、学習者又は実施日(学習日)又はスコア又は指摘件数のいずれかの組み合わせを示すデータが対応付けて示される学習履歴の一覧を管理し提示するので、学習者にとって俯瞰性が高い。また、発話評価装置は、この学習履歴の一覧に対する所定の選択操作に応じて、選択された学習履歴に対応するテキストデータと、指摘対象文字列と指摘内容が存在する場合は当該指摘対象文字列と指摘内容とを示した画面を提示し、選択された学習履歴に対応する学習者もしくは手本の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示し、所定の選択操作に応じて指定されたテキストデータ内の文字列を起点に、当該文字列から音声データを再生させることが出来るので、学習者は過去実施した学習の詳細な内容を使い勝手良く確認することができる。
【0210】
また、本発明の一実施形態は、発話評価装置における発話評価方法であって、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとを入力するステップと、前記手本もしくは前記ユーザの発話に対する音声データ、前記第1分析データもしくは前記第2分析データが所定の棄却条件式を満たす場合に、棄却を行うステップと、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第1比較ステップと、前記第1分析データと前記第2分析データとの差分を算定して分析する第2比較ステップと、前記第1比較ステップにおいて比較対象となる音素の組み合わせと所定の条件式と第1指摘内容との組み合わせを保持するステップと、前記第2比較ステップにおいて分析対象となる分析対象項目と前記分析対象項目毎の条件式と第2指摘内容との組み合わせを保持するステップと、前記第1比較ステップ又は前記第2比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たす場合に、音素位置を含む1つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを提示させるステップと、を有する、発話評価方法である。
【0211】
この方法では、発話評価装置は、手本もしくはユーザの発話に対する音声データもしくは第1分析データもしくは第2分析データが所定の棄却条件式を満たす場合に棄却を行い、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとの差分を算定して分析する。発話評価装置は、誤り検出結果又は第1分析データ及び第2分析データとの分析結果が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを提示させる。
【0212】
これにより、発話評価装置は、例えば音読やシャドーイングの際に学習者(ユーザの一例)が発話した時の音声に対する誤り検出、手本に対応する第1分析データと学習者の発話に対応する第2分析データとの差分を用いた分析により、学習者の発話した音声に対する客観的な評価を行うことで、学習者における自学習(例えば外国語学習)を効率的に支援することができ、また指導者(ユーザの他の一例)において学習者の音読やシャドーイングにより得られた音声データを添削する際の工数(手間)を効率的に削減することができる。
【0213】
また、本発明の一実施形態は、コンピュータである発話評価装置に、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとを入力するステップと、前記手本もしくは前記ユーザの発話に対する音声データ、前記第1分析データもしくは前記第2分析データが所定の棄却条件式を満たす場合に棄却を行うステップと、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第1比較ステップと、前記第1分析データと前記第2分析データとの差分を算定して分析する第2比較ステップと、前記第1比較ステップにおいて比較対象となる音素の組み合わせと所定の条件式と第1指摘内容との組み合わせを保持するステップと、前記第2比較ステップにおいて分析対象となる分析対象項目と前記分析対象項目毎の条件式と第2指摘内容との組み合わせを保持するステップと、前記第1比較ステップ又は前記第2比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させるステップと、を実行させるための、プログラムである。
【0214】
このプログラムがインストールされた発話評価装置は、手本もしくはユーザの発話に対する音声データもしくは第1分析データもしくは第2分析データが所定の条件式を満たす場合に棄却を行い、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第1分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第2分析データとの差分を算定して分析する。発話評価装置は、誤り検出結果又は第1分析データ及び第2分析データとの分析結果が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部に提示させる。
【0215】
これにより、発話評価装置は、例えば音読やシャドーイングの際に学習者(ユーザの一例)が発話した時の音声に対する誤り検出、手本に対応する第1分析データと学習者の発話に対応する第2分析データとの差分を用いた分析により、学習者の発話した音声に対する客観的な評価を行うことで、学習者における自学習(例えば外国語学習)を効率的に支援することができ、また指導者(ユーザの他の一例)において学習者の音読やシャドーイングにより得られた音声データを添削する際の工数(手間)を効率的に削減することができる。
【0216】
以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【課題】音読やシャドーイング時の学習者の音声に対する客観的な評価を行うことで学習者における自学習を効率的に支援し、また指導者における音読やシャドーイングにより得られた音声データの添削の工数を削減する。
【解決手段】発話評価装置は、手本に対応する音声データ又はユーザの発話に対する音声データに基づき、棄却を行う棄却部と、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を行う第1比較部と、手本に対応する第1分析データとユーザの発話に対応する第2分析データとの差分を算定して分析する第2比較部と、第1比較部又は第2比較部の出力が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む1つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える。