IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ スピーチェイス エルエルシーの特許一覧 ▶ チェン、チュン、ホの特許一覧

特許7521869人間の発話のきめ細かな評価による発話言語スキルの教育および評価
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-16
(45)【発行日】2024-07-24
(54)【発明の名称】人間の発話のきめ細かな評価による発話言語スキルの教育および評価
(51)【国際特許分類】
   G09B 19/06 20060101AFI20240717BHJP
   G09B 19/00 20060101ALI20240717BHJP
   G09B 19/04 20060101ALI20240717BHJP
   G10L 25/90 20130101ALI20240717BHJP
   G10L 25/60 20130101ALI20240717BHJP
【FI】
G09B19/06
G09B19/00 H
G09B19/04
G10L25/90
G10L25/60
【請求項の数】 33
【外国語出願】
(21)【出願番号】P 2022168065
(22)【出願日】2022-10-20
(62)【分割の表示】P 2020500776の分割
【原出願日】2017-05-23
(65)【公開番号】P2023015086
(43)【公開日】2023-01-31
【審査請求日】2022-11-15
(31)【優先権主張番号】62/476,733
(32)【優先日】2017-03-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519342909
【氏名又は名称】スピーチェイス エルエルシー
(73)【特許権者】
【識別番号】519342910
【氏名又は名称】チェン、チュン、ホ
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】チェン、チュン、ホ
【審査官】相川 俊
(56)【参考文献】
【文献】特開2016-090900(JP,A)
【文献】特開2001-051580(JP,A)
【文献】特開2003-228279(JP,A)
【文献】韓国公開特許第10-2013-0043817(KR,A)
【文献】特開2004-252115(JP,A)
【文献】特表2014-529771(JP,A)
【文献】米国特許出願公開第2012/0322035(US,A1)
【文献】特開2010-169973(JP,A)
【文献】米国特許出願公開第2007/0048697(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G09B 19/00
G09B 19/04
G09B 19/06
G10L 25/90
G10L 25/60
(57)【特許請求の範囲】
【請求項1】
1つまたは複数の発話言語スキルを教育および/または評価するように構成された装置であって、前記装置は、
装置入力構成要素および装置出力構成要素のうちの1つまたは複数を有する装置インタフェース構成要素と、
メモリと、
前記メモリに操作可能に結合され、前記装置インタフェース構成要素との間でデータをやり取りするように構成されたプロセッサと
を備え、前記プロセッサは、
ユーザが読む1つまたは複数の教育用文字列を実装するように構成された教育用文字列提供回路と、
前記1つまたは複数の教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを、前記ユーザから前記装置入力構成要素を介して受信するように構成された教育用文字列音声サンプルデータ受信回路と、
個々の言語構成要素の分析回路であって、
前記ユーザの発話を認識することなく前記教育用文字列音声サンプルデータを少なくとも1つの個々の言語構成要素に分離し、前記少なくとも1つの個々の言語構成要素が、音素、音節、二重母音または二重音字を含む音声単位のうちの1つまたは複数を含み、
前記少なくとも1つの個々言語構成要素の1つまたは複数の発音特性を測定し、前記1つまたは複数の発音特性がピッチ発音特性、イントネーション発音特性、周波数発音特性、強勢発音特性、アクセント発音特性、発話速度発音特性、ためらい発音特性、フィラー音発音特性、およびチャンク発音特性のうちの1つまたは複数を含み、
ベースラインの個々の言語構成要素のうち前記教育用文字列音声サンプルデータに対応する1つまたは複数のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性と前記測定された個々の言語構成要素のそれぞれの1つまたは複数の発音特性とを比較することを通じて、前記教育用文字列音声サンプルデータを分析し、個々の言語構成要素のそれぞれに対する品質スコアを生成するように構成された、個々の言語構成要素分析回路と、
前記装置出力構成要素上で前記ユーザに評価提示を提供するように構成された評価提示提供回路と、
を含むように構成された1つまたは複数の回路を有し、前記評価提示は、前記1つまたは複数の個々の言語構成要素の各々について、分析された前記教育用文字列音声サンプルデータの前記1つまたは複数の個々の言語構成要素に基づく、前記1つまたは複数の教育用文字列が前記ユーザによってどの程度正確に発音されたかについての前記教育用文字列音声サンプルデータの評価を含む、装置。
【請求項2】
前記教育用文字列提供回路は、
ユーザが読む1つまたは複数の教育用文字列を前記ユーザに提供するように構成された教育用文字列提供回路
を含む、請求項1に記載の装置。
【請求項3】
前記教育用文字列提供回路は、
前記ユーザが読む1つまたは複数の教育用文字列を、前記装置インタフェース構成要素の前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列提供回路
を含む、請求項2に記載の装置。
【請求項4】
前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々の評価を含む前記教育用文字列音声サンプルデータの前記評価を収集するように構成された教育用文字列音声サンプルデータ評価収集回路
をさらに備える、請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記装置は、収集された前記教育用文字列音声サンプルデータの前記評価に少なくとも部分的に基づいて1つまたは複数のさらなる教育用文字列を判定するように構成されたさらなる教育用文字列判定回路をさらに備え、前記1つまたは複数のさらなる教育用文字列は、前記装置による分析および評価のために前記ユーザからキャプチャされた場合に前記ユーザの発話言語スキルを向上させるために計算される、請求項4に記載の装置。
【請求項6】
前記教育用文字列提供回路は、
前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の視覚表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列視覚提供回路と、
前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の音声表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列音声提供回路と、
を含む、請求項3から5のいずれか一項に記載の装置。
【請求項7】
前記教育用文字列提供回路は、
前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の対話型視覚表現を、前記装置出力構成要素を介して前記ユーザに提供し、
前記装置入力構成要素を介して前記ユーザからの入力を受け付ける
ように構成された教育用文字列対話型視覚提供回路
を含む、請求項3から6のいずれか一項に記載の装置。
【請求項8】
前記1つまたは複数の教育用文字列の前記対話型視覚表現に対する前記ユーザからの入力に応答して、前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の音声表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列応答音声提供回路
をさらに備える、請求項7に記載の装置。
【請求項9】
前記評価提示は、個々の言語構成要素のそれぞれに対する前記品質スコアに基づく前記1つまたは複数の教育用文字列に関する前記ユーザの発話の正確さを表す総合スコアの提示を含む、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記装置出力構成要素はディスプレイおよびスピーカを含み、前記評価提示提供回路はさらに、
対応する1つまたは複数のベースラインの個々の言語構成要素に対して分析された前記1つまたは複数の個々の言語構成要素の各々に関する前記ユーザの発話の前記ユーザへの視覚フィードバックを前記ディスプレイ上に提示する視覚的提示提供回路と、
特定の個々の言語構成要素に対するユーザからの入力に応答して、前記特定の個々の言語構成要素に関する前記ユーザの発話のうちの1つまたは複数の可聴フィードバックを、前記スピーカを介して提示する可聴提示提供回路と、
を含む、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記ベースラインの個々の言語構成要素は、前記ユーザ以外の複数のソースから取得された言語構成要素の平均化および機械学習の少なくとも一方によって生成される
請求項1から10のいずれか一項に記載の装置。
【請求項12】
1つまたは複数の発話言語スキルを教育および/または評価する方法であって、
コンピュータによって、ユーザが読むように構成された少なくとも1つの教育用文字列を提供する段階と、
前記コンピュータによって、前記少なくとも1つの教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階と、
前記コンピュータによって、前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
前記コンピュータによって、前記ユーザの発話を認識することなく前記教育用文字列音声サンプルデータを少なくとも1つの個々の言語構成要素に分離する段階であって、前記少なくとも1つの個々の言語構成要素が、音素、音節、二重母音または二重音字を含む音声単位のうちの1つまたは複数を含む、段階と、
前記コンピュータによって、前記少なくとも1つの個々言語構成要素の1つまたは複数の発音特性を測定する段階であって、前記1つまたは複数の発音特性がピッチ発音特性、イントネーション発音特性、周波数発音特性、強勢発音特性、アクセント発音特性、発話速度発音特性、ためらい発音特性、フィラー音発音特性、およびチャンク発音特性のうちの1つまたは複数を含む、段階と、
前記コンピュータによって、ベースラインの個々の言語構成要素のうち前記教育用文字列音声サンプルデータに対応する1つまたは複数のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性と前記測定された個々の言語構成要素のそれぞれの1つまたは複数の発音特性とを比較して個々の言語構成要素のそれぞれに対する品質スコアを生成する段階と
を有する、段階と、
前記コンピュータによって、前記ユーザに評価提示を提供する段階であって、前記評価提示は、分析された前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性に基づく、前記1つまたは複数の前教育用文字列が前記ユーザによってどの程度正確に発音されたかについての前記教育用文字列音声サンプルデータの評価の前記ユーザへの提示を含む、段階と
を備える方法。
【請求項13】
前記コンピュータによって、収集された前記教育用文字列音声サンプルデータの前記評価に少なくとも部分的に基づく、前記1つまたは複数の教育用文字列のうちの1つまたは複数のさらなる教育用文字列の判定を受信する段階をさらに備え、前記判定は、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々の前記評価にアクセスできる前記コンピュータ又は他のコンピュータによって実行される、請求項12に記載の方法。
【請求項14】
前記コンピュータによって、前記教育用文字列音声サンプルデータの前記評価を収集する段階をさらに備え、評価された前記教育用文字列音声サンプルデータは、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々の評価を含み、前記1つまたは複数の発音特性は、ピッチ発音特性、イントネーション発音特性、周波数発音特性、強勢発音特性、アクセント発音特性、発話速度発音特性、ためらい発音特性、フィラー音発音特性、およびチャンク発音特性のうちの1つまたは複数を含む、請求項12または13に記載の方法。
【請求項15】
前記コンピュータによって、収集された前記教育用文字列音声サンプルデータの前記評価に少なくとも部分的に基づいて、1つまたは複数のさらなる教育用文字列を判定する段階をさらに備え、前記ピッチ発音特性、前記イントネーション発音特性、前記周波数発音特性、前記強勢発音特性、前記アクセント発音特性、前記発話速度発音特性、前記ためらい発音特性、前記フィラー音発音特性、前記チャンク発音特性のうちの1つまたは複数を含む1つまたは複数の発音特性を対象とすることにより、前記1つまたは複数のさらなる教育用文字列は、分析および評価のために前記ユーザからキャプチャされた場合に前記ユーザの発話言語スキルを向上させるために計算される、請求項14に記載の方法。
【請求項16】
前記コンピュータによって、ユーザが読むように構成された少なくとも1つの教育用文字列を提供し、前記少なくとも1つの教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを受信し、前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析し、前記ユーザに評価提示を提供する前記段階を特定の回数だけ、異なる教育用文字列については前記特定の回数の少なくとも一部だけ繰り返す段階と、
前記コンピュータによって、前記特定の回数ごとに前記教育用文字列音声サンプルデータの前記評価を収集する段階であって、評価された前記教育用文字列音声サンプルデータは、分析および評価のために前記ユーザからキャプチャされた場合に前記ユーザの発話言語スキルを向上させるために計算される1つまたは複数のさらなる教育用文字列を判定するために少なくとも部分的に使用される、段階と、
前記コンピュータによって、収集された前記教育用文字列音声サンプルデータの前記評価を使用して、前記1つまたは複数のさらなる教育用文字列を判定する段階と
をさらに備える、請求項12から15のいずれか一項に記載の方法。
【請求項17】
前記コンピュータによって、1人または複数のユーザのセットをクラスにグループ化する段階と、
前記コンピュータによって、前記繰り返す段階と、前記クラス内の前記ユーザの各々について前記教育用文字列音声サンプルデータの前記評価を収集する前記段階とを実行する段階と、
をさらに備える、請求項16に記載の方法。
【請求項18】
前記コンピュータによって、前記クラスの1つまたは複数のパフォーマンス特性とともに、前記クラスのリストを命令エンティティに視覚的に表示する段階と、
前記コンピュータによって、追加の特性視認の対象となる前記クラス内の1人または複数のユーザの選択を前記命令エンティティから受信する段階と、
前記コンピュータによって、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々について、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す構成要素スコアを前記命令エンティティに提示する段階と、
をさらに備える、請求項17に記載の方法。
【請求項19】
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、前記評価提示の一部として、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々について、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す構成要素スコアを提供する段階
をさらに有する、請求項12から18のいずれか一項に記載の方法。
【請求項20】
特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す前記構成要素スコアは、
前記特定の個々の言語構成要素が前記特定のベースラインの個々の言語構成要素と一致するかどうかを表す2進インジケータ
をさらに含む、請求項19に記載の方法。
【請求項21】
特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す前記構成要素スコアは、
前記特定の個々の言語構成要素が前記特定のベースラインの個々の言語構成要素と一致する離散量を表す数値スコアインジケータ
をさらに含む、請求項19または20に記載の方法。
【請求項22】
特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す前記構成要素スコアは、
前記特定の個々の言語構成要素が前記特定のベースラインの個々の言語構成要素とどれだけ厳密に一致するかを、段階的なカラースケールで視覚的に表す色分けされたスコアインジケータ
をさらに含む、請求項19から21のいずれか一項に記載の方法。
【請求項23】
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、分析された前記教育用文字列音声サンプルデータに基づいて、前記少なくとも1つの教育用文字列の言語での前記ユーザの流暢さの数値的評価または色分けを含む視覚的評価を前記ユーザに提供する段階
を有する、請求項12から22のいずれか一項に記載の方法。
【請求項24】
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、前記分析された前記教育用文字列音声サンプルデータに基づいて、言語を話す際の前記ユーザの発音または流暢さの数値的評価または色分けを含む視覚的評価を、前記ユーザに提供する段階
を有する、請求項12から22のいずれか一項に記載の方法。
【請求項25】
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、前記分析された前記教育用文字列音声サンプルデータに基づいて、少なくとも1つの教育用文字列に対する前記ユーザの応答性の数値的評価または色分けを含む視覚的評価を、前記ユーザに提供する段階
を有する、請求項12から22のいずれか一項に記載の方法。
【請求項26】
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、前記分析された前記教育用文字列音声サンプルデータに基づいて、言語を話す際の前記ユーザの発話言語スキルの数値的評価または色分けを含む視覚的評価を、前記ユーザに提供する段階
を有する、請求項12から22のいずれか一項に記載の方法。
【請求項27】
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、前記ユーザと関連付けられる装置のスクリーン上で前記ユーザに前記評価提示を表示する段階を有し、前記評価提示は、前記ユーザからの入力を受信するように構成された1つまたは複数の対話型オブジェクトを含む、請求項12から26のいずれか一項に記載の方法。
【請求項28】
1つまたは複数の発話言語スキルを教育および/または評価する方法であって、
コンピュータによって、ユーザが読むように構成された少なくとも1つの教育用文字列を提供する段階と、
前記コンピュータによって、前記少なくとも1つの教育用文字列に関する前記ユーザの発話または応答に対応する教育用文字列音声サンプルデータを受信する段階と、
前記コンピュータによって、前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
前記コンピュータによって、前記ユーザの発話を認識することなく前記教育用文字列音声サンプルデータを少なくとも1つの個々の言語構成要素に分離する段階であって、前記少なくとも1つの個々の言語構成要素が、音節、二重母音、二重音字、単語、文節、文、段落、または、段落のセットもしくはテキストのグループのうちの1つまたは複数を含む、段階と、
前記コンピュータによって、前記少なくとも1つの個々言語構成要素の1つまたは複数の発音特性を測定する段階と、
前記コンピュータによって、ベースラインの個々の言語構成要素のうち前記教育用文字列音声サンプルデータに対応する1つまたは複数のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性と前記測定された個々の言語構成要素のそれぞれの1つまたは複数の発音特性とを比較して個々の言語構成要素のそれぞれに対する品質スコアを生成する段階と
を有する、段階と、
前記コンピュータによって、前記ユーザに評価提示を提供する段階であって、前記評価提示は、分析された前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性に基づく、前記1つまたは複数の前教育用文字列が前記ユーザによって発音された品質についての前記教育用文字列音声サンプルデータの評価の前記ユーザへの提示を含む、段階と
を備え、
前記ユーザに評価提示を提供する前記段階は、
前記コンピュータによって、前記ユーザと関連付けられる装置のスクリーン上で前記ユーザに前記評価提示を表示する段階を有し、前記評価提示は、前記ユーザからの入力を受信するように構成された1つまたは複数の対話型オブジェクトを含み、
前記評価提示は、前記個々の言語構成要素と、前記1つまたは複数のベースラインの個々の言語構成要素の間の個々のスコア比較を、前記ユーザからの入力に応答して表示する対話型オブジェクトとして、前記個々の言語構成要素のうちの少なくとも1つを表示する評価提示を含み、
前記個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間の前記個々のスコア比較は、
前記個々の言語構成要素と、前記対応するベースラインの個々の言語構成要素との間の、前記1つまたは複数の個々の言語構成要素の前記測定された前記1つまたは複数の発音特性の個々の比較
を含む、方法。
【請求項29】
前記1つまたは複数の発音特性の個々の比較はそれぞれ、前記個々の言語構成要素と、前記対応するベースラインの個々の言語構成要素との間の差分を表す数値スコアを含む、請求項28に記載の方法。
【請求項30】
前記評価提示は、前記ユーザからの入力を受信するように構成された1つまたは複数の対話型オブジェクトと、
評価音声提示を前記ユーザに提示するように構成された対話型オブジェクトと
を含み、前記評価音声提示は、前記少なくとも1つの教育用文字列の特定部分の音声提示と、前記少なくとも1つの教育用文字列の前記特定部分の前記ユーザの発音の音声提示とのうちの1つまたは複数を含む、請求項27から29のいずれか一項に記載の方法。
【請求項31】
前記評価音声提示の少なくとも一部は、前記少なくとも1つの教育用文字列の前記特定部分と、他の教育用文字列の他の関連部分とを発音する際の前記ユーザのパフォーマンスの分析に基づいて増幅または減速され、前記少なくとも1つの教育用文字列の前記特定部分の前記ユーザの発音の間違いを認識および修正する前記ユーザの能力を強化する、請求項30に記載の方法。
【請求項32】
1つまたは複数の発話言語スキルを教育および/または評価する方法であって、
コンピュータによって、ユーザが読むように構成された少なくとも1つの教育用文字列を提供する段階と、
前記コンピュータによって、前記少なくとも1つの教育用文字列に関する前記ユーザの発話または応答に対応する教育用文字列音声サンプルデータを受信する段階と、
前記コンピュータによって、前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
前記コンピュータによって、前記ユーザの発話を認識することなく前記教育用文字列音声サンプルデータを少なくとも1つの個々の言語構成要素に分離する段階であって、前記少なくとも1つの個々の言語構成要素が、音節、二重母音、二重音字、単語、文節、文、段落、または、段落のセットもしくはテキストのグループのうちの1つまたは複数を含む、段階と、
前記コンピュータによって、前記少なくとも1つの個々言語構成要素の1つまたは複数の発音特性を測定する段階と、
前記コンピュータによって、ベースラインの個々の言語構成要素のうち前記教育用文字列音声サンプルデータに対応する1つまたは複数のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性と前記測定された個々の言語構成要素のそれぞれの1つまたは複数の発音特性とを比較して個々の言語構成要素のそれぞれに対する品質スコアを生成する段階と
を有する、段階と、
前記コンピュータによって、前記ユーザに評価提示を提供する段階であって、前記評価提示は、分析された前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性に基づく、前記1つまたは複数の前教育用文字列が前記ユーザによって発音された品質についての前記教育用文字列音声サンプルデータの評価の前記ユーザへの提示を含む、段階と
を備え、
前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する前記段階は、
前記コンピュータによって、前記1つまたは複数の個々の言語構成要素を1つまたは複数の個々の言語構成要素グループにグループ化する段階と、
前記コンピュータによって、前記1つまたは複数のベースラインの個々の言語構成要素に対する、前記1つまたは複数の個々の言語構成要素の前記測定された1つまたは複数の発音特性のうちの1つまたは複数の測定を通じて、前記1つまたは複数の個々の言語構成要素グループを分析する段階と、
前記コンピュータによって、前記評価提示の一部として、分析された前記1つまたは複数の個々の言語構成要素グループの結果を含める段階と
を有する、方法。
【請求項33】
ユーザの言語の流暢さを改善する方法であって、
コンピュータによって、プロンプト文字列に応答する対応するベースライン応答文字列が存在する、前記プロンプト文字列を、聴覚的に、視覚的に、またはそれらの組み合わせで提供する段階と、
前記コンピュータによって、前記プロンプト文字列に対する前記ユーザの応答文字列に対応する教育用文字列音声サンプルデータを受信する段階と、
前記コンピュータによって、前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
前記コンピュータによって、前記教育用文字列音声サンプルデータを少なくとも1つの個々の言語構成要素に分離する段階であって、前記少なくとも1つの個々の言語構成要素が、音素、音節、二重母音または二重音字を含む音声単位のうちの1つまたは複数を含む、段階と、
前記コンピュータによって、前記少なくとも1つの個々言語構成要素の1つまたは複数の発音特性を測定する段階であって、前記1つまたは複数の発音特性がピッチ発音特性、イントネーション発音特性、周波数発音特性、強勢発音特性、アクセント発音特性、発話速度発音特性、ためらい発音特性、フィラー音発音特性、およびチャンク発音特性のうちの1つまたは複数を含む、段階と、
前記コンピュータによって、前記ベースライン応答文字列の複数のベースラインの個々の言語構成要素のうち前記教育用文字列音声サンプルデータに対応する1つまたは複数のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性と前記測定された前記応答文字列の少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性とを比較する段階と、
前記コンピュータによって、前記応答文字列が前記プロンプト文字列に応答するかどうかを判定する段階と
を有する段階と、
前記コンピュータによって、測定された前記応答文字列の前記1つまたは複数の発音特性と、前記プロンプト文字列に対する前記応答文字列の前記判定された応答性とに少なくとも部分的に基づいて、前記教育用文字列音声サンプルデータの品質測定値を提供する段階と、
を備える方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願との相互参照]
出願データシート(ADS)が本願の出願日に提出された場合、参照により本明細書に組み込まれる。米国特許法第119条、第120条、第121条または第365条(c)に基づく優先権に関してADSで特許請求されたすべての出願、および、そのような出願の親、祖父母、曽祖父母など、ありとあらゆる出願も、これらの出願でなされたすべての優先権主張、および、参照により組み込まれたすべての資料を含めて、そのような主題が本明細書と矛盾しない範囲で参照により組み込まれる。
【0002】
本願は、ある場合、以下の記載された出願(「優先権出願」)から利用可能な最も早い有効な出願日の利益に関連し、および/またはその利益を主張し、以下に記載されている(例えば、仮特許出願以外については、利用可能な最も早い優先日を主張する、または、仮特許出願については、優先権出願の親、祖父母、曽祖父母など、ありとあらゆる出願に関して米国特許法第119(e)条に基づく利益を主張する)。さらに、本願は、ある場合、以下に記載されている「関連出願」に関連している。
【0003】
[優先権出願]
USPTOの法定外要件の目的のために、本願は、国際特許出願第PCT/US17/34065号の一部の継続であり、きめ細かい評価による発話言語スキルの教育および評価の権利を有し、Chun Ho Cheungを発明者と命名、2017年5月23日に、代理人整理番号3003-003-001PCTで提出され、現在同時係属中であるか、現在同時係属中の出願が出願日の利益を受ける権利を有する出願である。
【0004】
USPTOの法定外の要件の目的のために、本願は、人間の発話のきめ細かい評価による発話言語スキルの教育および評価という名称の米国仮特許出願第62/476,733号の優先権の利益を主張し、Chun Ho Cheungを発明者として命名し、2017年3月25日に提出され、これは、本願の出願日より12か月以内に出願されたか、現在同時係属中の出願が出願日の利益を受ける権利を有する出願である。
【0005】
[関連出願]
出願日時点ではなし。
【0006】
上記で提供された出願のリストがADSを介して提供されたリストと一致しない場合、ADSの優先権出願セクションに表示される各出願と本願の優先権出願セクションに表示される各出願に優先権を主張することが出願人の意図である。
【0007】
優先権出願および関連出願、並びに、優先権出願および関連出願の親、祖父母、曽祖父母など、ありとあらゆる出願の全主題が、すべての優先権主張を含めて、そのような主題が本明細書と矛盾しない範囲で参照により本明細書に組み込まれる。
【背景技術】
【0008】
本発明は、言語教育および学習の技術分野に属する。より詳細には、本発明は、計算言語技術による言語学習の技術分野に属する。
【発明の概要】
【0009】
大量のデータを記憶および処理する計算能力の出現は、人間の存在全体に多くの変化をもたらした。急速に進歩している分野の1つは、発話分析である。データの大きなトレーニングセットを使用することで、コンピュータは、現在、人間と同じレベルの発話を処理および分析できる。スマートフォンなどの多くの最新の装置は、発話の形でコマンドを受信でき、複雑なアルゴリズムとトレーニングデータのセットを通じて発話を認識する。Apple(登録商標)のSiri、Microsoft(登録商標)のCortana、およびAmazonのEchoは、現在市販されているこれらの製品のほんの一部である。
【0010】
しかし、コンピュータで実装された言語スキルの教育の分野、つまり、誰かの既存の発話を認識せず、話す方法を教えるためのコンピュータトレーニングの使用に関しては、あまり進歩はない。上記のような既存の発話認識プログラムは、幅広い形式の発話を認識するようにトレーニングされている。例えば、既存の発話認識プログラムは、不正確に話す話者、アクセント付きで話す話者、障害のあるまたは強要されている話者、および他の多くのバリエーションを認識するようにトレーニングされている。話者のパターンマッチングを実行しようとすると、発話のニュアンスが失われ、そのため、話者が酔っ払って言葉を不明瞭にしたり、強勢や病気のために素早く話したり、話者が強要されているために異なって話したり、周囲の騒音が大きいうるさい部屋で話したりしても、音声コマンドを認識できる。
【0011】
ただし、前述の問題と解決策は、発話教育ではなく発話検出を扱う。次の解決策には、それらの単語を正確に分析して話すようにトレーニングすることを含み、多くの発話データを破棄してパターンマッチにヒットすることを望むことより、意味を収集できることを望んでいるのではなく、ネイティブスピーカが示す単語や語句のベースラインの正確な中立的な発音と、話者の発話がどのように異なるかを正確に分析する。本明細書で開示されるいくつかの実装は、とりわけ、話者の発話がネイティブスピーカの例えば、「完璧な」ピッチ、音、イントネーション、周波数、強勢、およびアクセントから逸脱する場所のきめ細かい分析を実行することを望んでいる。この正確できめ細かい分析は、話者に正確にどこで間違いを犯しているか、そしてそれを修正するために何ができるかを知らせるのに役立つ。したがって、本明細書で説明するシステムおよび方法のいくつかは、ユーザの悪い発話を補うのではなく、ユーザの悪い発話を検出して注意を喚起し、発話を修正できるようにする。
【0012】
さらに、ユーザの発話との不一致を正確かつきめ細かく分析することで、特に時間の経過に応じて適応型トレーニングを可能することで、トレーニングでさらに利益が得られる。例えば、ユーザが文を話すたびに、その文は、本明細書でより詳細に説明されるように、きめ細かい分析で分析され得る。この文の分析は、他の単語、文、および語句の分析と組み合わせて、ユーザを対象としたレッスンを開発できる。分析を使用して、言語のユーザの弱点を識別し、改善の対象とするか、および/または言語のユーザの強みを判定して時間を短縮することができる。このプロセスは反復的であるため、いくつかの実装では、ユーザが望む流暢さのどんなレベルでも、新しい言語を習得するのに必要な全体的な時間は、ロートレッスンとそれらのレッスンでのユーザのパフォーマンスの広範なストローク分析に依存する従来の言語教育方法と比較して大幅に減少する。
【0013】
したがって、本明細書の装置、方法、およびシステムは、例えば、そのコンピュータがユーザの発話をより慎重かつ細かく分析できるようにすることにより、コンピュータの動作方法に対するコンピュータの改善を構成し、そのユーザにより良いフィードバックを提供し、ユーザがより迅速に言語を学習できるようにする。
【0014】
本明細書で説明する1つまたは複数の様々な態様では、1つまたは複数の発話言語スキルの教育および/または評価の方法は、以下に限定されるわけではないが、請求項に記載されているように、ユーザが読むように構成された少なくとも1つの教育用文字列を提供する段階と、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階と、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、ベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対する少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性の測定を有する段階と、ユーザに評価提示を提供する段階であって、評価提示は、分析された1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性に基づく教育用文字列音声サンプルデータの評価のユーザへの提示を含む、段階と、教育用文字列音声サンプルデータの評価を収集する段階であって、評価された教育用文字列音声サンプルデータは、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々の評価を含む、段階とを備える。上記に加えて、他の方法の態様は、本明細書に記載された開示の一部を形成する特許請求の範囲、図面、および本文に記載されている。
【0015】
同様に、本明細書で説明する1つまたは複数の様々な態様では、1つまたは複数の発話言語スキルを教育および/または評価するように構成された装置であって、当該装置は、装置入力構成要素および装置出力構成要素、メモリ、およびメモリに操作可能に結合され、装置インタフェース構成要素との間でデータをやり取りするように構成されたプロセッサの1または複数を含むが、これらに限定されず、プロセッサは1つまたは複数の回路を含む。様々な態様で、プロセッサは、ユーザが読む1つまたは複数の教育用文字列を実装するように構成された教育用文字列提供回路と、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを、ユーザから装置入力構成要素を介して受信するように構成された教育用文字列音声サンプルデータ受信回路と、ベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対する少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性の測定を通じて、教育用文字列音声サンプルデータを分析するように構成された個々の言語構成要素分析回路と、装置出力構成要素上でユーザに評価提示を提供するように構成された評価提示提供回路であって、評価提示は、1つまたは複数の個々の言語構成要素の各々について、分析された教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素に基づく教育用文字列音声サンプルデータの評価を含む、評価提示提供回路と、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々の評価を含む教育用文字列音声サンプルデータの評価を収集するように構成された教育用文字列音声サンプルデータ評価収集回路とのうちの1つまたは複数を備え得る。
【0016】
1つまたは複数の様々な態様において、1つまたは複数の関連システムは、米国特許法に基づき、特許性のある主題に限定して、機械、物質の組成、またはシステムの製造に実装できる。101.1つまたは複数の関連システムは、本明細書で参照される方法の態様を実施するための回路および/またはプログラミングを含むことができるが、これらに限定されない。
【0017】
上記は要約であるため、簡略化、一般化、包含、および/または詳細の省略が含まれている場合があり、その結果、当業者は、要約が例示のみであり、決して限定することを意図していないことを理解するであろう。本明細書に記載の装置および/またはプロセスおよび/または他の主題の他の態様、特徴、および利点は、詳細な説明、対応する図面、および/または本明細書に記載の教示を参照することにより明らかになる。
【図面の簡単な説明】
【0018】
実施形態のより完全な理解のために、添付の図面に関連して行われる以下の説明を参照する。複数の異なる図面で同じ記号の使用は、矢印以外の文脈で別段の指示がない限り、通常、類似または同一の項目を示し、これは、プロセス/方法のフローチャートに表示される場合に、例示的かつ非限定的なプロセスフローを示すために使用でき、文脈が示すように、システムおよび装置図に表示される場合に、例示的かつ非限定的なデータフローを示すために使用できる。詳細な説明、図面、および特許請求の範囲に記載されている例示的な実施形態は、限定することを意図していない。本明細書に提示される主題の趣旨または範囲から逸脱することなく、他の実施形態を利用することができ、他の変更を加えることができる。
【0019】
図1】本発明の様々な実施形態による、環境100で動作する装置50の環境図を示す。
【0020】
図2A】本発明の実施形態による、環境200で動作する装置50の1つまたは複数の例示的な実装を示す。
図2B】本発明の実施形態による、環境200で動作する装置50の1つまたは複数の例示的な実装を示す。
図2C】本発明の実施形態による、環境200で動作する装置50の1つまたは複数の例示的な実装を示す。
図2D】本発明の実施形態による、環境200で動作する装置50の1つまたは複数の例示的な実装を示す。
図2E】本発明の実施形態による、環境200で動作する装置50の1つまたは複数の例示的な実装を示す。
図2F】本発明の実施形態による、環境200で動作する装置50の1つまたは複数の例示的な実装を示す。
【0021】
図3A】本発明の実施形態による、発話評価エンジン310の例示的な実装を示す。
図3B】本発明の実施形態による、発話評価エンジン310の例示的な実装を示す。
【0022】
図4】本発明の様々な実施形態による評価提示402の例示的な実装を示している。
【0023】
図5A】本発明の実施形態によるプロセス、例えば操作フロー500の高レベル論理フローチャートである。
図5B】本発明の実施形態によるプロセス、例えば操作フロー500の高レベル論理フローチャートである。
図5C】本発明の実施形態によるプロセス、例えば操作フロー500の高レベル論理フローチャートである。
図5D】本発明の実施形態によるプロセス、例えば操作フロー500の高レベル論理フローチャートである。
図5E】本発明の実施形態によるプロセス、例えば操作フロー500の高レベル論理フローチャートである。
図5F】本発明の実施形態によるプロセス、例えば操作フロー500の高レベル論理フローチャートである。
【0024】
図6】本発明の実施形態による、教育用文字列操作502を提供する高レベル論理フローチャートである。
【0025】
図7A】本発明の実施形態による、評価提示操作508を提供する高レベル論理フローチャートである。
図7B】本発明の実施形態による、評価提示操作508を提供する高レベル論理フローチャートである。
図7C】本発明の実施形態による、評価提示操作508を提供する高レベル論理フローチャートである。
図7D】本発明の実施形態による、評価提示操作508を提供する高レベル論理フローチャートである。
【0026】
図8A】本発明の実施形態による分析操作506の高レベル論理フローチャートである。
図8B】本発明の実施形態による分析操作506の高レベル論理フローチャートである。
【0027】
図9】本発明の実施形態による、トレーニング文字列の提示の例示的なスクリーンショット/実装である。
【0028】
図10】本発明の実施形態による、トレーニング文字列のユーザの音声サンプルの評価の提示の例示的なスクリーンショット/実装である。
【0029】
図11】本発明の様々な実施形態によるプロセス、例えば操作フロー1100の高レベル論理フローチャートである。
【0030】
図12】本発明の様々な実施形態によるプロセス、例えば操作フロー1200の高レベル論理フローチャートである。
【0031】
図13】本発明の様々な実施形態によるプロセス、例えば操作フロー1300の高レベル論理フローチャートである。
【発明を実施するための形態】
【0032】
目次
【0033】
I.はじめに:[0040]
【0034】
II.様々な実施形態の利点:[0042]
【0035】
III.請求項は法定主題に関する:[0046]
【0036】
IV.様々な実施形態の説明:[0070]
【0037】
V.様々な実装と制限のない文言:[0170]
【0038】
VI.特許請求される主題の序文:[0187]
【0039】
詳細な説明の始まり
【0040】
I.はじめに
【0041】
以下は、本発明を構成する装置、方法、システム、製造品、および/または物質の組成の説明を表す。特許請求の範囲ではない詳細な説明の部分は、例示としてのみ理解されるべきであり、本発明の範囲は、請求項自体によって完全に定義され、前述および以下の説明に照らして読まれる。
【0042】
II.様々な実施形態の利点
【0043】
以下は、本発明の1つまたは複数の様々な実装の利点の一部に過ぎないことを理解されたい。以下の利点は、本発明のすべての実装を説明することも、本発明に必要なものを概説することも意図していない。それらは決して本発明を限定しない。本発明は、特許請求の範囲によってのみ定義され、特許請求の範囲に含まれない本明細書に提示された記載または利点は、特許請求の範囲に決して読み込まれるべきではない。このセクションは、後の読者が既存の技術に対して本発明が提供する利点のいくつかを理解し、把握できるようにするためにのみ提供されている。
【0044】
発話判定のための既存のアルゴリズムは、一般に、いわゆる「欠陥」または発話の不一致を補償しようとし、例えばアクセント、語法、局所的な違い、ユーザの状態の変化、および/または周囲雑音などの環境状態による。これらの既存のアルゴリズムは、本明細書でより詳細に開示されるプロセスにおいて、一般化された中立に関連する発話の不一致の正確な性質に焦点を合わせたり、キャプチャしたりしない。したがって、ユーザは、たとえその発話に数値(例えば、「60%正確」)が割り当てられていても、発話が「間違っている」という大まかな兆候を得ることができ、これは、ユーザが、発話が間違っている理由を具体的に学習するのに役立たない。したがって、様々な実装で、ユーザの発話のきめ細かい評価が実行され、そのきめの細かい評価がユーザに提供され、その結果、特定の単語を不正確に発音している理由、どの音素の強勢が低すぎるか、高すぎるかなどを正確に知ることができる。
【0045】
さらに、様々な実装において、ユーザには、ユーザの発話のきめ細かい評価に関する即時またはほぼ即時の視覚フィードバックが与えられてもよい。このフィードバックでは、カラフルな視覚的提示を使用してよく、カラフルな視覚的提示は、ユーザの脳機能をトリガして間違いを効率的に修正できるように、聴覚フィードバックと組み合わせることができる。フィードバックは、ユーザのスキルレベル、演習の種類、および以下の具体的な実装に応じて、ユーザにとって必要または役立つ限りきめ細かくすることができる。例えば、特定の発音特性のユーザのパフォーマンスに関するフィードバックは、さらなるトレーニング文字列にループバックされる場合がある。
【0046】
III.特許請求された発明は、法定主題に関する
【0047】
本願の特許請求の範囲、説明、および図面は、例えばコンピュータによって実行される一連の操作として、操作/機能言語で1つまたは複数の本技術を説明してもよい。ほとんどの場合、そのような操作/機能の説明は、特別に構成されたハードウェアとして当業者に理解される(例えば、プログラムソフトウェアからの命令に従って特定の機能を実行するようにプログラムされると、実際には汎用コンピュータが専用コンピュータになるため)。
【0048】
重要なことに、本明細書で説明する操作/機能の説明は人間の心では理解できるが、それらの操作/機能の計算の実装から分離された操作/機能の抽象的なアイデアではない。むしろ、操作/機能は、非常に複雑な計算機またはその他の手段の仕様を表している。以下で詳細に説明するように、操作/機能言語は、適切な技術的文脈で、つまり物理的な実装の具体的な仕様として読む必要がある。
【0049】
本明細書で説明する論理演算/機能は、機械仕様または操作/機能によって指定される他の物理的メカニズムの蒸留であり、他の方法では不可解な機械仕様が人間の心に理解できるようになる。蒸留により、当業者は、特定のベンダーのハードウェア構成またはプラットフォームに限定されることなく、多くの異なる特定のベンダーのハードウェア構成またはプラットフォームにわたって技術の操作/機能の説明を適合させることができる。
【0050】
現在の技術的説明のいくつか(例えば、詳細な説明、図面、特許請求の範囲など)は、論理演算/機能の観点から説明される場合がある。次の段落でより詳細に説明するように、これらの論理演算/機能は抽象的なアイデアの表現ではなく、様々なハードウェア要素の静的または順序付けられた仕様を表す。別の言い方をすれば、文脈で別段の指示がない限り、論理演算/機能は、様々なハードウェア要素の静的または順序付けられた仕様を表すものとして当業者には理解されよう。これが当てはまるのは、操作/機能の形式で記述された技術的開示を実装するために当業者が利用できるツールが-高レベルプログラミング言語(例えば、C、ジャバ、視覚ベーシックなど)の形式のツール、または、非常に高速なハードウェア記述言語(「VHDL」、テキストを使用して論理回路を記述する言語)の形式のツール-様々なハードウェア構成の静的または順序付けられた仕様のジェネレーターであるためである。この事実は「ソフトウェア」という広い用語であいまいになることもあるが、以下の説明で示されるように、「ソフトウェア」と呼ばれるものは、順序付けられた要素の非常に複雑な鎖間/仕様の省略形であることを当業者は理解している。「順序付けられた要素」という用語は、電子論理ゲートのアセンブリ、分子計算論理構成要素、量子計算メカニズムなどの計算の物理的構成要素を指す場合がある。
【0051】
例えば、高レベルのプログラミング言語は、例えば、高レベルのプログラミング言語が実際に指定する機械のシーケンシャルな組織、状態、入力、出力などの詳細からの、複数の抽象化レベルなどの強力な抽象化を備えたプログラミング言語である。人間の理解を促進するために、多くの場合、高レベルのプログラミング言語は、自然言語と似ているか、記号を共有しさえする。
【0052】
高レベルのプログラミング言語は強力な抽象化を使用しているため(例えば、自然言語で記号を類似または共有する可能性があるため)、「純粋な精神構造」(例えば、「ソフトウェア」はコンピュータプログラムまたはコンピュータプログラミング-何らかの形で、言い表せない精神構造であり、なぜなら、抽象化のレベルが高いと、人間の心の中で考えられ理解されるからである。この説明は、機能/操作の形での技術的な説明を何らかの形で「抽象的なアイデア」として特徴付けるために使用されている。実際、技術分野(情報通信技術など)では、これは真実ではない。
【0053】
高レベルのプログラミング言語が強力な抽象化を使用して人間の理解を促進するという事実は、表現されているものが抽象的アイデアであることを示すものと見なされるべきではない。実際、当業者は、正反対が真実であることを理解している。高レベルのプログラミング言語が機能/操作の形式で技術的開示を実装するために使用されるツールである場合、当業者は、重要な意味の感覚において、抽象的、不正確、「ファジー」、または「精神的」ではなく、そのようなツールは、代わりに、特定の計算機のほぼ理解できないほど正確なシーケンシャル仕様であり、その部分は、経時的に典型的なより一般的な計算機からそのような部分をアクティブ化/選択することで構築される(例えば、計時)この事実は、高レベルのプログラミング言語と自然言語の表面的な類似性によってあいまいになることがある。これらの表面的な類似性は、高レベルのプログラミング言語の実装が最終的に多くの異なる計算機を作成/制御することにより価値のある作業を実行するという事実を明らかにできる。
【0054】
高レベルのプログラミング言語が指定する多くの異なる計算機は、ほとんど想像を絶するほど複雑である。基本的に、計算機で使用されるハードウェアは、通常、ある種の秩序ある物質で構成され(例えば、従来の電子装置(例えば、トランジスタ)、デオキシリボ核酸(DNA)、量子素子、機械スイッチ、光学、流体工学、空気圧、光学装置(例えば、光学干渉装置)、分子など)、論理ゲートを形成するように配置される。論理ゲートは通常、物理的状態を変更するために、ブール論理の物理的現実を作成するように、電気的、機械的、化学的に、または駆動される物理装置である。
【0055】
論理ゲートは、特定の論理機能の物理的現実を作成するために、通常、電気的、機械的、化学的に、または駆動され得る物理装置である論理回路を形成するように配置することができる。論理回路のタイプには、マルチプレクサ、レジスタ、算術論理ユニット(ALU)、コンピュータメモリなどの装置が含まれ、各タイプを組み合わせて中央処理装置(CPU)などのさらに他のタイプの物理装置を形成でき、-最もよく知られているのはマイクロプロセッサである。現代のマイクロプロセッサは、多くの場合、多くの論理回路に1億個以上の論理ゲート(および多くの場合10億個以上のトランジスタ)を含む。例えば、Wikipedia、論理ゲート、http://en.wikipedia.org/wiki/Logic_gates(2012年6月5日、21:03GMT)を参照してください。
【0056】
マイクロプロセッサを形成する論理回路は、そのマイクロプロセッサが定義した命令セットアーキテクチャによって定義された命令を実行するマイクロアーキテクチャを提供するように配置されている。命令セットアーキテクチャは、ネイティブデータ型、命令、レジスタ、アドレッシングモード、メモリアーキテクチャ、割り込みおよび例外処理、外部入出力などを含むプログラミングに関連するマイクロプロセッサアーキテクチャの一部である。
【0057】
命令セットアーキテクチャには、マイクロプロセッサを使用/制御するためにプログラマが使用できる機械語の仕様が含まれている。機械語命令は、マイクロプロセッサによって直接実行され得るようなものであるため、通常は2進数の文字列またはビットで構成されている。例えば、典型的な機械語命令は多くのビットが長い場合がある(例えば、32、64、または128ビットの文字列は現在一般的である)。典型的な機械語命令は、「11110000101011110000111100111111」(32ビット命令)の形式を取る場合がある。
【0058】
ここで重要なのは、機械語命令が2進数のシーケンスとして記述されているにもかかわらず、実際にはそれらの2進数が物理的現実を指定していることである。例えば、特定の半導体を使用してブール論理演算を物理的に現実化する場合、機械語命令の見かけ上数学的なビット「1」と「0」は、特定のワイヤへの特定の電圧の印加を指定する短縮形を実際に構成する。例えば、一部の半導体技術では、機械語命令の2進数「1」(論理「1」など)は、特定の「ワイヤ」(例えば、プリント基板上の金属トレースなど)に約+5ボルトを印加することを指定し、機械語命令の2進数「0」(例えば、論理「0」)は、特定の「ワイヤ」に印加される約-5ボルトを指定する。機械の構成の電圧を指定することに加えて、そのような機械語命令は、より一般的な機械の何百万もの論理ゲートから特定のグループの論理ゲートを選択してアクティブにする。したがって、機械語命令プログラムは、抽象的な数式とはほど遠く、ゼロと1の文字列として記述されていても、構築された多数の物理機械または物理機械状態を指定する。
【0059】
機械語は通常、ほとんどの人間にとって理解不能である(例えば、上記の例はたった1つの命令であり、一部のパーソナルコンピュータは毎秒20億を超える命令を実行する)。したがって、機械語で書かれたプログラム-数千万の機械語命令が長くなる可能性がある-は理解できない。これを考慮して、機械語命令の数値を直接使用するのではなく、ニーモニックコードを使用して機械語命令を参照する初期アセンブリ言語が開発された(例えば、乗算演算を実行するために、プログラマは略語「マルチ」をコーディングし、MIPS機械コードの2進数「011000」を表す)。アセンブリ言語は当初、マイクロプロセッサを制御して作業を実行する人間にとって大きな助だったが、やがて人間が行う必要のある作業の複雑さが、単にアセンブリ言語を使用してマイクロプロセッサを制御する人間の能力を上回った。
【0060】
この時点で、同じタスクを繰り返し実行する必要があり、それらの繰り返しタスクを実行するのに必要な機械語は同じであることに留意した。これを考慮して、コンパイラが作成された。コンパイラは、「2+2を追加して結果を出力する」など、機械またはアセンブリ言語よりも人間が理解しやすいステートメントを取り、その人間が理解できるステートメントを複雑で退屈で広大な機械語コード(例えば、数百万の32、64、または128ビット長の文字列)に変換する装置である。したがって、コンパイラは高レベルのプログラミング言語を機械語に変換する。
【0061】
次いで、このコンパイルされた機械語は、上記のように、技術仕様として使用され、人間にとって有用で、有形で、具体的な作業が行われるように、様々な計算機の相互操作を順次構築し、引き起こす。例えば、上記のように、このような機械語(高レベル言語のコンパイルバージョン)は、ハードウェア論理ゲートを選択し、電圧レベル、電圧遷移タイミングなどを指定する技術仕様として機能するため、人間にとって有用な作業はハードウェアによって実現される。
【0062】
したがって、機能的/操作上の技術的な説明は、当業者によって見られる場合、抽象的なアイデアからはほど遠い。むしろ、そのような機能的/操作上の技術的な説明は、今説明したツールなど、当技術分野で利用可能なツールを通じて理解されると、代わりに、ハードウェア仕様の人間が理解できる表現であると理解され、その複雑さと特異性は、ほとんどすべての人間の理解をはるかに超えている。これを念頭に置いて、当業者は、本明細書の開示および当業者の知識を考慮して、そのような操作/機能の技術的説明は、(a)1つまたは複数の鎖間物理機械、(b)シーケンシャル/組み合わせ論理を表す1つまたは複数の物理機械を作成するように構成された鎖間論理ゲート、(c)論理を表す物理的現実を作成する論理ゲート(例:鎖間電子装置(例:トランジスタ)、DNA、量子素子、機械スイッチ、光学、流体工学、空気圧、分子など)を構成する鎖間の秩序ある物質、または(d)上記の事実上あらゆる組み合わせにより、物理的な現実に作られた操作として理解することができることを理解するであろう。実際、安定した、測定可能な、および変更可能な状態の物理オブジェクトを使用して、上記の技術的説明に基づいて機械を構築できる。例えば、チャールズ・バベッジは、木から最初のコンピュータを構築し、ハンドルを回して動力を供給した。
【0063】
したがって、抽象的なアイデアとして理解されることからほど遠く、当業者は、機能/操作技術の説明を、1つまたは複数のほとんど想像を絶するほど複雑で時系列のハードウェアインスタンス化の人間が理解できる表現として認識するだろう。機能的/操作上の技術的な説明が、自然言語と、いくつかの単語、構造、語句などを共有する高レベルのコンピューティング言語(またはその物質用の高レベルのブロック図)に容易に役立つ可能性があるという事実は、単に指標としてとることができず、そのような機能的/操作上の技術的な説明は、抽象的なアイデア、または抽象的なアイデアの単なる表現である。実際、本明細書で概説したように、技術分野ではこれは単に真実ではない。当業者が利用可能なツールを通して見ると、そのような機能的/操作上の技術的説明は、ほとんど想像を絶する複雑さのハードウェア構成を指定していると見なされる。
【0064】
上記で概説したように、機能的/操作上の技術的な説明を使用する理由は少なくとも2つある。まず、機能的/操作上の技術的な記述を使用すると、ほぼ無限に複雑な機械と、鎖間ハードウェア要素から生じる機械操作を、人間の心が処理できる方法で記述することができる(例えば、自然言語と論理的な物語の流れを模倣することによって)。第2に、機能的/操作上の技術的な説明の使用は、特定のベンダーのハードウェア部品からある程度独立した説明を提供することで、説明された主題を理解する当業者を支援する。
【0065】
機能的/操作上の技術的な説明の使用は、上記の説明から明らかなように、記載された主題を理解する際に当業者を支援し、この文書に記載されている技術的な説明を、数兆の1と0、数十億の単一行のアセンブリレベルの機械コード、数百万の論理ゲート、数千のゲートアレイ、または任意の数の抽象化の中間レベルとして簡単に転写できる。しかし、そのような低レベルの技術的記述が現在の技術的記述に置き換わる場合、そのような低レベルの技術的記述は、対応する利益なしに複雑さを追加する可能性が高いため(例えば、1つまたは複数のベンダー固有のハードウェアの部品を利用して主題を説明することにより)、当業者は本開示の実装において過度の困難に遭遇する可能性がある。したがって、機能的/操作上の技術的説明の使用は、ハードウェアのベンダー固有の部品の規則から技術的説明を分離することにより、当業者を支援する。
【0066】
上記を考慮すると、本技術説明に記載されている論理演算/機能は、様々な順序付けられた要素の静的または順序付けられた仕様を表していて、そのような仕様が人間の心に分かりやすく、多くの様々なハードウェア構成を作成できるようにするためである。単に、それらが表す仕様が、特定のベンダーのハードウェア実装に依存しない方法で当業者が容易に理解および適用できる方法で提示されるため、本明細書に開示されている論理演算/機能は、そのように扱われるべきであり、抽象的なアイデアとして軽蔑して特徴付けられるべきではない。
【0067】
当業者は、システムの態様のハードウェア、ソフトウェア、および/またはファームウェアの実装の間にほとんど区別が残されていない点まで技術水準が進歩したことを認識し、ハードウェア、ソフトウェア、および/またはファームウェアの使用は一般に(ただし常にではないが、特定の状況ではハードウェアとソフトウェアの選択が重要になる可能性があるため)コスト対を表す設計選択である。効率のトレードオフ。本明細書で説明するプロセスおよび/またはシステムおよび/または他の技術を実施できる様々なビークル(例えば、ハードウェア、ソフトウェア、および/またはファームウェア)があり、好ましいビークルは、プロセスおよび/または/またはシステムおよび/または他の技術が展開されているコンテキストによって異なることを当業者は理解するであろう。例えば、実装者が速度と精度が最重要であると判定した場合、実装者は主にハードウェアおよび/またはファームウェアのビークルを選択でき、あるいは、柔軟性が最優先される場合、実装者は主にソフトウェア実装を選択でき、または、もう一度代替的に、実装者は、米国特許法第101条に基づく特許性のある主題に限定して、1つまたは複数の機械のハードウェア、ソフトウェア、ファームウェアの組み合わせ、物質の組成、および製造品を選択できる。したがって、本明細書で説明するプロセスおよび/または装置および/または他の技術を実施することができるいくつかの可能なビークルがあり、それらのいずれも、利用されるビークルが展開されるコンテキストおよび実装者の特定の懸念事項(例えば、速度、柔軟性、予測可能性など)に依存する選択であるという点で本質的に他より優れているものはなく、いずれも異なる場合がある。当業者は、実装の光学的側面が通常、光学指向のハードウェア、ソフトウェア、またはファームウェアを使用することを認識するであろう。
【0068】
本明細書で説明されるいくつかの実装では、論理および同様の実装は、ソフトウェアまたは他の制御構造を含み得る。例えば、電子回路は、本明細書で説明されるような様々な機能を実装するように構築および配置された電流の1つまたは複数の経路を有し得る。いくつかの実装では、1つまたは複数の媒体は、そのような媒体が本明細書で説明されるように実行するように操作可能な装置検出可能命令を保持または送信する場合に装置検出可能実装を担うように構成され得る。いくつかの変形形態では、例えば、実装には、既存のソフトウェアまたはファームウェア、またはゲートアレイあるいはプログラマブルハードウェアの更新または変更が本明細書で説明される1つまたは複数の操作に関連する1つまたは複数の命令の受信または送信を実行することなどによって含まれる。代替的または追加的に、いくつかの変形形態では、実装は、専用ハードウェア、ソフトウェア、ファームウェア構成要素、および/または専用構成要素を実行または他の方法で呼び出す汎用構成要素を含み得る。仕様または他の実装は、本明細書で説明される有形送信媒体の1つまたは複数のインスタンスによって、オプションでパケット送信によって、または分散媒体を様々な時間に通過することによって送信され得る。
【0069】
代替的または追加的に、実装は、本明細書で説明する実質的に任意の機能的操作の1つまたは複数の発生を可能にする、トリガする、調整する、要求する、またはそうでなければ引き起こすための専用命令シーケンスを実行する段階または回路を呼び出す段階を含み得る。いくつかの変形形態では、本明細書の操作上のまたは他の論理的な記述は、ソースコードとして表現され、実行可能な命令シーケンスとしてコンパイルまたは呼び出される場合がある。例えば、コンテキストによっては、C++などのソースコードまたはその他のコードシーケンスによって、全体または一部が実装されている場合がある。他の実装では、ソースまたは他のコード実装は、市販されているおよび/または当技術分野の技術を使用して、高レベル記述子言語にコンパイル/実装/置換/変換されてもよい(例えば、最初に記述された技術をCまたはC++プログラミング言語で実装し、その後プログラミング言語実装を論理合成可能言語実装、ハードウェア記述言語実装、ハードウェア設計シミュレーション実装、および/または式の他の同様のモードに変換する)。例えば、論理式(コンピュータプログラミング言語の実装など)の一部またはすべては、Verilogタイプのハードウェア記述(例:ハードウェア記述言語(HDL)および/または超高速集積回路ハードウェア記述子言語(VHDL)経由)または、ハードウェア(例えば、特定用途向け集積回路)を有する物理的な実装を作成するために使用できる他の回路モデルとして明示される場合がある。当業者は、これらの教示に照らして、適切な送信または計算要素、材料供給、アクチュエータ、または他の構造を取得、構成、および最適化する方法を認識するであろう。
【0070】
IV.様々な実施形態の説明
【0071】
以下の詳細な説明では、本明細書の一部を形成する添付図面を参照する。図面では、文脈で別段の指示がない限り、類似の記号は通常、類似または同一の構成要素またはアイテムを識別する。詳細な説明、図面、および特許請求の範囲に記載されている例示的な実施形態は、限定することを意図していない。本明細書に提示される主題の趣旨または範囲から逸脱することなく、他の実施形態を利用することができ、他の変更を加えることができる。
【0072】
したがって、様々な実施形態によれば、計算的に実装された方法、システム、回路、製造品、順序付けられた物質連鎖、およびコンピュータプログラム製品は、とりわけ、図1に示された環境のインタフェースを提供するように設計されている。
【0073】
ここで図1を参照すると、図1は、1つまたは複数の実施形態によるシステム図を示している。具体的には、図1は、様々な実施形態においてユーザ150、装置50、およびサーバ10を含むシステム環境100を示している。様々な実装において、サーバ10は、通信ネットワーク105を介して装置50と通信し得る。様々な実装では、本明細書で説明される様々な回路のすべてが装置50で実行され得ることに留意する。サーバ10は完全にオプションであってよく、様々な実装では省略され得る。様々な実装において、装置50は、ネットワーク、例えば通信ネットワーク105に接続することなく、本明細書に記載された機能をすべて実行することができる。他の様々な実装では、本明細書で説明する操作の一部、および本明細書で説明する回路の一部は、装置50またはその上で部分的に実行され、サーバ10またはその上で部分的に実行され得る。
【0074】
様々な実装において、装置50は、サーバタイプの装置であってもよく、または、例えば、デスクトップコンピュータ、ラップトップコンピュータ、携帯電話、ネットワーク電話、スマートフォン、タブレット、音楽プレーヤ、トランシーバ、ラジオ、拡張現実装置(例えば、拡張現実メガネおよび/またはヘッドフォン)、ウェアラブル電子機器、例えば、時計、ベルト、イヤホン、または「スマート」な衣類、イヤホン、ヘッドフォン、音声/視覚機器、媒体プレーヤ、テレビ、投影スクリーン、フラットスクリーン、モニタ、時計、電化製品(例えば、電子レンジ、対流式オーブン、ストーブ、冷蔵庫、冷凍庫)、ナビゲーションシステム(例えば、全地球測位システム(「GPS」)システム)、医療警告装置、リモートコントロール、周辺機器、ビデオカメラ、パーソナルビデオレコーダ、パーソナル音声レコーダなどを含むがこれらに限定されないユーザレベルの装置であってもよい。
【0075】
様々な実装において、通信ネットワーク105は、2つのエンドポイント間でデータおよび/または情報を送信する働きをする、有線または無線またはそれらの何らかの組み合わせの1つまたは複数のネットワークの任意の形態であり得る。様々な実施形態において、通信ネットワーク105は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、無線ローカルエリアネットワーク(WLAN)、パーソナルエリアネットワーク(PAN)、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(WiMAX(登録商標))、公衆交換電話網(PTSN)、汎用パケット無線通信サービス(GPRS)ネットワーク、セルラネットワーク(GSM(登録商標)、CDMAなど)、マイクロ波ネットワークなどのうちの1つまたは複数を含み得る。通信ネットワーク105は、有線ネットワーク、無線ネットワーク、または、有線ネットワークと無線ネットワークとの組み合わせとすることができる。本願で使用される「通信ネットワーク」は、1つまたは複数の通信ネットワークを指し、これらの通信ネットワークは、互いに対話する場合としない場合があることに留意する。
【0076】
様々な実装において、サーバ10は、要求-応答モデルで実装されることが可能なコンピュータ機器の任意の部品またはセットであり得る。例えば、サーバ10は、装置50を含むがこれに限定されない1つまたは複数のクライアントに様々なサービス、機能、または計算タスクを提供してもよい。一部の用途では、サーバ用に設計されたハードウェアが望ましい場合があるが、用語「サーバ」は、ハードウェアの特定のセットまたはクラスを意味しない。さらに、サーバがクライアントを処理できる場合、「サーバ」という用語は複数のクライアントを、または、1つのクライアントでさえ意味するものではない。さらに、サーバ10は、複数の異なる部分の位置が可変である(例えば、メモリは1つの物理的位置にあってよく、CPUは完全に異なる位置にあってよい)、分散サーバおよび/または他のコンピューティング機器のセットの一部であってよく、同様に様々な全く異なる位置にあり得る様々な冗長部分を有してよい。他の実装では、サーバ10は装置50のローカルまたは装置50の内部にあってもよい(例えば、いくつかの実装では、装置50の一部は装置50でアクティブな1つまたは複数のプロセスに対してサーバ10として機能してもよい)。さらに、サーバは、サーバ、プログラムを実行することによってサーバとして機能する装置、またはそれらの何らかの組み合わせを生じさせる特定のコンピュータプログラムまたはプロセスを指す場合がある。「サーバ」という用語の使用は、ピアツーピアまたはその他のネットワーク配置を除外または排除するものではない。装置50、サーバ10、および通信ネットワーク105は、理解を容易にするために図1に示されるように説明されているが、他の配置およびセットアップが企図され、以下の開示の範囲内である。
【0077】
ここで図2Aを参照すると、図2Aは、1つまたは複数の実装による装置50を示している。図2Aに示されるように、装置50は、プロセッサ222、装置メモリ245、装置インタフェース構成要素220、および他の装置構成要素224を含み得る。これらの構成要素は、本明細書でより詳細に説明される。これは装置50の構成要素の完全なリストではなく、記載されているいくつかの構成要素は省略されるか、他の場所で実行される場合があることに留意する。例えば、分散環境では、装置メモリ245は装置50から物理的に分離されてもよく、例えば共有メモリであってもよい。同様に、プロセッサ222は分散プロセッサであってもよい。
【0078】
上述のように、1つまたは複数の様々な実装において、装置50は、装置メモリ245を含み得る。ある実施形態において、装置メモリ245は、ランダムアクセスメモリ(「RAM」)、読み取り専用メモリ(「ROM」)、フラッシュメモリ、ハードドライブ、ディスクベースの媒体、磁気記憶装置、光学記憶装置、揮発性メモリ、不揮発性メモリ、およびそれらの任意の組み合わせのうちの1つまたは複数を含み得る。ある実施形態では、装置メモリ245は、装置から分離されてもよく、例えば、ネットワーク上の異なる装置で、または無線で利用可能であってもよい。例えば、ネットワーク化されたシステムでは、装置メモリ245が、数フィート離れた、または海を横切って位置し得る中央サーバに配置される、1つまたは複数の装置50があり得る。ある実施形態では、装置メモリ245は、1つまたは複数の大容量記憶装置、読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、ランダムアクセスメモリ(RAM)などのキャッシュメモリ、フラッシュメモリ、同期ランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、および/または他の種類のメモリ装置を含み得る。ある実施形態では、装置メモリ245は単一のネットワークサイトに配置されてもよい。ある実施形態では、装置メモリ245は、互いに離れたサイトを含む複数のネットワークサイトに配置されてもよい。
【0079】
上述のように、1つまたは複数の様々な実装では、装置50は、図2Aに示されるように、装置インタフェース構成要素220を含むことができる。本明細書で説明するように、装置インタフェース構成要素220は、装置50の入力および出力、例えばユーザ150との対話を処理するすべての構成要素を表すことを意図している。説明を簡単にするために、様々な実装において、装置インタフェース構成要素220は、装置入力構成要素220Aおよび装置出力構成要素220Bを含み得る。図2Aに別々に示されるが、本願を通して説明されるように、ハードウェアおよびソフトウェア/プログラミングの両方で、装置入力構成要素220Aと装置出力構成要素220Bとの間に実質的な重複があり得ることに留意する。例えば、タッチスクリーンモニタは、装置入力構成要素220Aと装置出力構成要素220Bの両方の一部として機能してもよい。装置入力構成要素220Aおよび装置出力構成要素220Bの各々は、多くの様々な構成要素と、それらの構成要素が機能することを可能にする、関連付けられるドライバ、プログラムおよびソフトウェアとを含むことができる。様々な実装において、装置入力構成要素220Aに含まれ得る構成要素の不完全な非限定的なリストには、キーボード、キーパッド、ゲームパッド、タッチスクリーン、マイク、ヘッドセット、ジェスチャトラッカ、光学トラッカ、カメラ、およびウェブカメラ、またはそれらの任意の組み合わせが含まれる。様々な実装において、装置出力構成要素220Bに含まれ得る構成要素の不完全な非限定リストには、ディスプレイ、タッチスクリーン、プロジェクタ、拡張現実投影、仮想現実投影、スピーカ、ヘッドフォンのセット、触覚フィードバックが含まれる。
【0080】
さらに、装置インタフェース構成要素220は、装置50、例えばコンピュータとの対話を可能にするソフトウェアプログラムにより形成された回路を含み得る。例えば、装置50がコンピュータである実装では、装置インタフェース構成要素220は、ウェブブラウザを構成するソフトウェアプログラムによって形成された回路を含み得る。ウェブブラウザ回路は、いくつかの実装において、ユーザとの対話が本発明で特許請求される回路に到達することを可能にする。あるいは、この回路はプロセッサ222の一部であってもよく、本発明で特許請求される回路に統合されてもよいが、本発明の一部として明示的に特許請求されず、様々なインタフェースの熟考を可能にする。別の例として、装置50がスマートフォン、例えば、アンドロイド(登録商標)を実行するアップルのiPhone(登録商標)またはサムスン電話であり、様々な「アプリストア」または「プレイストア」に接続される実装では、プロセッサ222の回路を本発明で特許請求される回路に構成するアプリケーションは、ユーザ150が例えば装置インタフェース構成要素220を介してスマートフォン装置と対話することを可能にするプロセッサ222の回路とインタフェースし得る。
【0081】
上述のように、1つまたは複数の様々な実装において、装置50は他の装置構成要素224を含むことができる。他の装置構成要素224は、例示のために主に示されており、例えば、装置50についてここに記載された構成要素のリストは、網羅的または完全なリストであることを意図していない。例えば、他の装置構成要素224は、例えば、オペレーティングシステム(OS)またはカーネル223を含み得る。他の実装において、他の装置構成要素224は、グラフィックスカード、GPU、プロセッサ222以外のプロセッサ、永続記憶装置、およびオプションとして装置50の一部として当技術分野で知られている他の構成要素を含み得る。
【0082】
再び図2Aを参照すると、装置50は、既に説明したように、プロセッサ222を含み得る。ある実装では、プロセッサ222は、処理回路250を形成する命令によって構成され得る。別の実装では、処理回路250は、例えば特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)の形態のプロセッサ222の永続部分であり得る。ある実装では、プロセッサ222が命令を実行し、次いで受信した命令に従ってその論理ゲートおよびトランジスタを再利用するため、処理回路250の一部のみが時間内の所与のスナップショットに存在し得る。実装、例えば、プロセッサ222が命令のパイプライン処理を実行する実装では、処理回路250の一部は、まったく同じ瞬間に存在することができないが、受信した命令に基づいてプロセッサ222がそれ自体を形成する場合に完全に形成される。
【0083】
再び図2Aを参照すると、処理回路250は、1回または複数回、かつ、必ずしも同時にまたは図2Aに示された順序ではなく、教育用文字列提供回路252、教育用文字列音声サンプルデータ受信回路254、個々の言語構成要素分析回路256、および評価提示提供回路258を含むことができる。
【0084】
図2Aに示されるように、1つまたは複数の実装において、教育用文字列提供回路252は、ユーザ252Aが読む教育用文字列を、装置インタフェース構成要素の装置出力構成要素を介してユーザに提供するように構成され得る。例えば、教育用文字列提供回路252は、最初に、教育用文字列の視覚表現または音声表現をユーザに提供し得る。例えば、教育用文字列は「昨日部屋を30室掃除した。とても疲れた。」であってもよい。視覚表現はまず、発音される単語をユーザに示すことができる。例えば、図9で、図9は、様々な実装による教育用文字列の視覚表現を示している。図9に示されるように、教育用文字列、例えば、教育用文字列930は、「昨日部屋を30室掃除した。とても疲れた。」である。
【0085】
図9に示すように、視覚表現は、複数の異なる実装に従って様々な構成要素を有することができる。例えば、ある実装において、図9は、16個の教育用文字列のシーケンスの最初の教育用文字列を表す。これは、文字列「16の1」として教育用文字列を識別する教育用文字列識別番号902によって示される。他の実装では、この視覚表現は「1/16」、または15個の赤色の点および1つの緑色の点などの他の形式を持つことができる。ある実装では、再生ボタン910により、ユーザは、教育用文字列全体の音声表現を提示する対話型ボタンを使用することができる。図9に示されるように、教育用文字列930は目立つように表示され、各単語、例えば単語932は分離され、明確に示される。ある実装では、個々の単語と対話する(例えば、個々の単語をクリックすると、単語の音素の視覚表現を表示させることができ、別の実装では、その単語の発音を音声で提示させることができる。別の実装では、個々の単語と対話することにより、個々の単語の1つまたは複数の発音特性の視覚表現がもたらされ得る。さらに、図9に示すように、情報アイコン、例えば、情報ボタン920がある。情報アイコンは、ユーザの方向を定める、または、教育用文字列930の意味をユーザに思い出させるために、ユーザの母国語またはデフォルトの母国語(例えば、スペイン語)で教育用文字列930を表示することができる。ユーザが教育用文字列を話す準備ができると、ユーザは発話ボタン950と対話することができ、これにより、教育用文字列930に関するユーザの発話の受け入れを開始するよう装置インタフェース構成要素220がトリガされる。最後に、視覚表現900は、レッスンまたはプログラムを終了し、かつ、別のスクリーンに戻るための終了ボタン940を含むことができる。
【0086】
再び図2Aを参照すると、ある実装では、教育用文字列提供回路252は、例えば、ユーザが読むように構成された少なくとも1つの教育用文字列を提供する操作502を実行することができ、これについては、図5A~5Fとの関連で本明細書でより詳細にさらに説明する。ある実装では、教育用文字列提供回路252は、装置インタフェース構成要素220と対話して、教育用文字列の視覚表現および音声表現を提供する。
【0087】
再び図2Aを参照すると、ある実装では、処理回路250は、様々な実装で教育用文字列音声サンプルデータ受信回路254を含むことができる。図2Aに示されるように、例えば副操作254Aにおいて、教育用文字列音声サンプルデータ受信回路254は、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを、ユーザから装置入力構成要素220Aを介して受信するように構成され得る。例えば、ユーザが例示的な「昨日部屋を30室掃除した。とても疲れた。」という教育用文字列を装置入力構成要素220A、例えばマイクに話す場合、装置入力構成要素220Aによってキャプチャされた音声データは、処理回路250、例えば教育用文字列音声サンプルデータ受信回路254によって受信され得る。ある実装では、教育用文字列音声サンプルデータ受信回路254は、音声データのデータ処理の一部、例えば圧縮、特定のフォーマットへの変換、(例えば、一般的な発話認識エンジンのように、例えば、正規化ではなく背景ノイズを低減するための)信号の前処理などを取り扱うことができる。他の実装では、これらの機能はプロセッサ222の複数の異なる回路によって処理される。図5A~5Fとの関連でより詳細に説明するように、ある実装では、教育用文字列音声サンプルデータ受信回路254は、例えば、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信する操作504を実行することができる。
【0088】
再び図2Aを参照すると、ある実装において、処理回路250は、個々の言語構成要素分析回路256を含み得る。例えば、ある実装において、例えば、副操作256Aに示されるように、個々の言語構成要素分析回路256は、ベースラインの個々の言語構成要素データの対応する1つまたは複数の発音特性に対して少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定することにより、教育用文字列音声サンプルデータを分析するように構成され得る。すなわち、教育用文字列の分析は、主に個々の言語構成要素分析回路256によって実行されるが、他の実装では、処理回路250の他の部分が分析の一部を実行してもよい。ある実装において、個々の言語構成要素分析回路256の一部またはすべては、装置50の外部の装置に組み込まれてもよいが、他の実装において、個々の言語構成要素分析回路256はプロセッサ222の一部である。当該回路は「個々の言語構成要素分析回路」と呼ばれ、これは主要な分析が個々の言語構成要素で実行されるためであることに留意する。とはいえ、回路の名称は、個々の言語構成要素分析回路256が教育用文字列全体の分析、例えば、教育用文字列音声サンプルデータ受信回路254によって受信された教育用文字列音声サンプルデータの全体的分析を実行できない、または実行しないことを意味すべきではない。例えば、個々の言語構成要素の分析に加えて、全体的な速度、ピッチ変化、および遷移の滑らかさについて、教育用文字列音声サンプルデータを分析することができる。
【0089】
ある実装では、図3A~3Bに示すように、個々の言語構成要素分析回路256は発話評価エンジン310を含むことができる。発話評価エンジン310の詳細は、図3A~3Bとの関連でより詳細に説明する。しかし、ある実装では、個々の言語構成要素分析回路256は、教育用文字列音声サンプルデータを1つまたは複数の個々の言語構成要素に分解する。ある実装において、個々の言語構成要素は、発話、例えば音素、例えば、発話音に対応し、かつ、人間の耳によって言語の単一の特有の音として知覚される、言語の音韻体系の単位であり得る。他の実施形態では、個々の言語構成要素は、音節、二重母音、二重音字、任意の他の音声単位、単語、文節、文、段落、または、段落のセットもしくはテキストのグループであり得る。個々の言語構成要素分析回路256は、発話音声データをその構成要素部分に分離するための1つまたは複数の既知の技術により、教育用文字列音声サンプルデータを個々の言語構成要素に分離し得る。ある実装において、個々の言語構成要素分析回路256は、教育用文字列音声サンプルデータを繰り返し検索して、教育用文字列音声サンプルデータの一部であることが知られている個々の言語構成要素を抽出することができる。ある実装では、個々の言語構成要素分析回路256は、数ある技術の中でも特に音声パターンマッチングを使用して、この検索を実行することができる。次いで、個々の言語構成要素は、例えば、本明細書でより詳細に説明されるように、データベースから引き出されたベースラインの個々の言語構成要素に対して測定される。
【0090】
ある実装では、1つまたは複数の発音特性を使用して、個々の言語構成要素がベースラインの個々の言語構成要素に対して測定される。発音特性は、個々の言語構成要素の発話の測定可能な任意の構成要素である。例示的な発音特性のいくつかには、ピッチ、イントネーション、周波数、強勢、およびアクセントが含まれる。個々の言語構成要素それぞれの発音特性の各々は、その対応するベースラインの個々の言語構成要素の各発音特性と比較されて、個々の言語構成要素それぞれの様々なスコアが生成される。様々なスコアリングメカニズムを使用でき、例えば、2進スコアリングメカニズムを使用でき、個々の言語構成要素の発音特性は、対応するベースラインの個々の言語構成要素の対応する発音特性と一致する(1)か一致しない(0)かである。別の実装では、数値スコアリングメカニズム、例えば、1から100を使用することができる。ここで、1は、個々の言語構成要素の発音特性と、対応するベースラインの個々の言語構成要素の対応する発音特性との間の最小一致であり、100は、個々の言語構成要素の発音特性と、対応するベースラインの個々の言語構成要素の対応する発音特性との間の完全一致である。さらに別の実装では、一致の近さ、および、一致が必要な閾線を超えるかどうかによって、閾値スコアリングメカニズム、例えば、1から5、または、「非常に悪い」、「悪い」、「平均」、「良い」、「非常に良い」などの語句を使用することができる。本実装では、本明細書でより詳細に説明するように、一致のスコアは、出力された評価を色分けすることによって説明できるが、スコアリングシステムを説明する任意の既知の方法を使用できる。別の実装では、個々の言語構成要素分析回路256は、上で概説したきめ細かいスコアを使用して、話された個々の言語構成要素が実際にどのように聞こえたかについてユーザにフィードバックを与えることができ、これは、個々の言語構成要素の1つまたは複数の発音特性に与えられたスコアから、または教育用文字列音声サンプルデータに対して実行された個々の言語構成要素のパターンマッチングから導出できる。
【0091】
教育用文字列音声サンプルデータの分析が完了した後、個々の言語構成要素分析回路256はその操作を完了し、評価提示提供回路258はその操作を開始することができる。再び図2Aを参照すると、ある実装において、プロセッサ222の処理回路250は、評価提示提供回路258を含み得る。ある実装において、評価提示提供回路258は、装置出力構成要素220B上でユーザに評価提示を提供するように構成され得る。ある実装では、副操作258Aに示されるように、評価提示提供回路は、装置出力構成要素上でユーザに評価提示を提供するように構成され、評価提示は、1つまたは複数の個々の言語構成要素の各々について、分析された教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素に基づく教育用文字列音声サンプルデータの評価を含む。評価提示は、1つまたは複数の個々の言語構成要素の各々について、分析された教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素に基づく教育用文字列音声サンプルデータの評価を含む。ある実装では、ベースラインに対して測定された個々の言語構成要素それぞれの各発音特性にスコア、例えば品質スコアが関連付けられており、これらの品質スコアは評価提示の一部である。品質スコアは、それらの個々の容量で表示される場合もあれば、様々な手法を使用して合計されて、総合スコアに達する場合もある。例えば、図4は、総合スコア412を含む評価提示402を示す。教育用文字列に関するユーザの発話の総合スコア412は、上述の統計計算414、および/または、全体として教育用文字列音声サンプルデータに割り当てられたスコアも考慮される統計計算416を含み得る。
【0092】
再び図2Aを参照すると、ある実装において、評価提示提供回路258は、前述のように、個々の言語構成要素分析回路256によって実行される分析に基づく評価を提示し得る。ある実装では、評価提示提供回路258は、例えば、評価提示をユーザに提供する操作508を実行することができる。図10に示すスクリーンショットとの関連で、例示的な評価提示を示す。
【0093】
図10を参照すると、図10は、例示的な実施形態による評価提示を示す。図10に示されるように、図10は総合スコア1010を含み、総合スコア1010は、図示された例では95%であり、これにより、システムは文1012「その通り!あなたはネイティブスピーカですか?」を追加する。また、図10には、教育用文字列930と同様の教育用文字列全体1030が示されているが、ここでは、色の使用によって、総合スコアを満たさなかった教育用文字列内の特定の単語がそれぞれ赤で表示され、例えば、図10の単語1032、例えば、単語「疲れた」が赤で表示されることで、その特定の単語の総合スコアが正確な発音を示すには不十分であったことを示す点を除く。(ここでのスコアは単なる例であり、例えば、単語が欠落すると通常はスコアが95%未満になるが、図10は正確な数値計算でなく単なる例を示すことを意図していることに留意する)。
【0094】
再び図10を参照すると、ある実装では、ユーザが特定の単語、例えば、図10の「掃除した」という単語と対話すると、ポップアップ、例えばポップアップボックス1050が現れる。ポップアップボックス1050は、特定の「掃除した」という単語およびその発音に関する追加の詳細を大量に含む。ポップアップボックス1050は、この場合は列1020として示される「音節」または「単語全体」の列を含み、単語が「掃除した」であることを示す。第2の列、音素の列1022は、単語「掃除した」がその個々の言語構成要素、例えば、示されている例では、音素または音声、例えば「K」、「L」、「IY」、「N」、および「D」に分解されたことを示す。第3の列、スコアの列1024には、その特定の個々の言語構成要素のスコアが示されている。図10に示される例では、行1025は、この例のテキスト単語および色によって示される「良い」のスコアを受け取った個々の言語構成要素「IY」を示す。行1027の例では、音素「L」は、色、および「AYのように聞こえた。」というテキスト表示で示されるように、良好なスコアを受け取らなかった。これは、ある実装において、上記のように、個々の言語構成要素分析回路256が個々の言語構成要素の発音特性をスコアリングし、実際の発話が他のどの言語構成要素のように聞こえたかを判定し、この場合は、「L」という音素/音が「AY」という音素/音のように聞こえ、赤色が、その個々の言語構成要素のスコアが良いスコアを得るのに十分なほど高くなかったことを示すためである。ただし、単語の5つの個々の言語構成要素のうち4つが、それらのベースラインの個々の言語構成要素に十分近く、「良い」スコアであると判定されたため、単語全体の発音スコアは、単語全体について緑色を受け取るのに十分であったことに留意する。
【0095】
再び図10を参照すると、ある実装では、ポップアップボックスは、ベースライン再生ボタン1062およびユーザサンプル再生ボタン1064も含む。ベースライン再生ボタン1062を押すと、装置出力構成要素220Bは、その単語を構成するベースラインの個々の言語構成要素、例えば図10の「清掃した」の音声提示を配信する。ユーザサンプル再生ボタン1064を押すと、装置出力構成要素220Bは、個々の言語構成要素のそのセットに対応する教育用文字列音声サンプルデータの音声提示を配信する。
【0096】
ここで図2Bを参照すると、図2Bは、様々な実装において、処理回路250の一部であり得るいくつかの追加の回路を示している。例えば、ある実装において、処理回路250は、教育用文字列音声サンプルデータ評価収集回路262を含み得る。ある実装において、例えば、副操作262Aに示されるように、教育用文字列音声サンプルデータ評価収集回路262は、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々の評価を含む、教育用文字列音声サンプルデータの評価を収集するように構成され得る。例えば、ある実装において、評価は収集され、例えば、メモリ、例えば、装置メモリ245、または装置50から離れた所にあり得る別のメモリに記憶される。例えば、ある実装では、ユーザは複数のレッスンを完了することができ、各レッスンには独自の教育用文字列音声サンプルデータが含まれる。個々の言語構成要素分析回路256によって生成され、個々の言語構成要素分析回路256によって提示される教育用文字列音声サンプルデータの評価は、さらなる分析およびユーザフィードバックを与える際の使用のために、教育用文字列音声サンプルデータ評価収集回路262により、収集することができる。これはいくつかの目的に役立つ。まず、ユーザは戻ってそれらの正確な間違いを見直すことができるため、ユーザは、問題がある部分を過度の困難なく確認することができる。第2に、言語講師、指導教員、先生、または、ユーザが言語スキルを学習または改善するのを支援している他の人が、ユーザの言語スキルの弱点と強みを正確に確認できる。第3に、収集された様々なスコアに機械学習/知能増幅を適用して、自動化により、ユーザの強い言語スキルおよびユーザの弱い言語スキルを判定することができる。最終的な結果として、ユーザの弱点と強みがより迅速に識別され、かつ、教育用文字列のさらなる反復の対象とされ得るので、ユーザが対象言語で所望の流暢さのレベルを達成するために必要な全体的な時間を短縮できる。
【0097】
再び図2Bを参照すると、教育用文字列音声サンプルデータ評価収集回路262は、教育用文字列音声サンプルデータ評価収集および記憶回路268を含むことができ、教育用文字列音声サンプルデータ評価収集および記憶回路268は、収集された教育用文字列音声サンプルデータの評価を記憶し、それらをメモリ、例えば装置メモリ245、または装置50から離れた所にあり得る別のメモリに記憶するように構成され得る。メモリ内の記憶装置は、一時的なもの、例えば処理に十分な長さのものであってもよいし、永続的なもの、例えば物理媒体、例えばハードディスクドライブ、フラッシュメモリ、メモリカード、または他の同様のものに記憶されるものであってもよい。
【0098】
再び図2Bを参照すると、図2Bは、様々な実装において、処理回路250の一部であり得るいくつかの追加の回路を示している。例えば、図2Bに示されるように、処理回路250は、さらなる教育用文字列判定回路264を含むことができる。ある実装において、例えば、副操作264Aに示すように、さらなる教育用文字列判定回路264は、収集された教育用文字列音声サンプルデータの評価に少なくとも部分的に基づいて1つまたは複数のさらなる教育用文字列を判定するように構成され得る。1つまたは複数のさらなる教育用文字列は、装置による分析および評価のためにユーザからキャプチャされた場合に、ユーザの発話言語スキルを向上させるために計算される。例えば、ユーザが複数の個々の言語構成要素にわたり「ピッチ」の発音特性について繰り返し低いスコアを有している場合、将来のレッスン(例えば、ユーザに提示する教育用文字列のセット)には、正確な「ピッチ」が強調される状況に焦点を当てた教育用文字列が含まれ得る。同様に、ユーザが、「IY」音素である個々の言語構成要素の複数の発音特性のスコアが低い場合、将来のレッスンには、「IY」音素を様々な文字形式および/または様々な単語および/または様々な単語の位置で含む教育用文字列が含まれてよく、ユーザが自分の弱点をより迅速にトレーニングできるようにする。再び図2Bを参照すると、この判定は、リモートサーバ、例えば、サーバ10で行われ得る。この実装の例は、さらなる教育用文字列受信回路266との関連で図2Bに記載され、さらなる教育用文字列受信回路266は、様々な実装において、リモートサーバで、判定された1つまたは複数のさらなる教育用文字列を受信するように構成され得る。1つまたは複数のさらなる教育用文字列は、収集された教育用文字列音声サンプルデータの評価に少なくとも部分的に基づき、分析および評価のためにユーザからキャプチャされた場合にユーザの発話言語スキルを向上させるために計算される。
【0099】
別の実装では、ユーザが言語スキルを学習または改善するのを支援している個人または団体が、収集された教育用文字列音声サンプルデータの評価を見直すことができる。その個人は一連の人々を支援している可能性があり、様々な実装において、その個人は、一連の人々全体について収集された教育用文字列音声サンプルデータの評価を一度に見ることへのアクセスを有する場合があり、その結果、その個人は、自らのユーザのうち、どのユーザが特定の分野でより多くの支援を必要としているか、どのユーザが後れを取っているか、および、どのユーザが言語のコアコンセプトをまだ把握していないかを判定できる。これらおよび他の実装については、本明細書でより詳細に説明する。
【0100】
ここで図2Cを参照すると、図2Cは、様々な実装において、処理回路250の一部であり得る1つまたは複数の追加の回路を示している。例えば、ある実装において、処理回路250の教育用文字列提供回路252は、(例えば、図2Fに示されるように)教育用文字列提供回路294を含み得る。教育用文字列提供回路294は、教育用文字列視覚提供回路272を含むことができる。ある実装では、例えば、副操作272Aに示されるように、教育用文字列視覚提供回路272は、ユーザが読むことになっている教育用文字列の視覚表現を、装置出力構成要素220Bを介してユーザに提供するように構成され得る。例えば、ある実装において、装置出力構成要素220Bは、携帯電話のタッチスクリーンを含み得る。そのタッチスクリーン上で、教育用文字列視覚的提供回路272は、教育用文字列、例えば図9の教育用文字列930を表示させることができる。ある実装では、教育用文字列提供回路252は、教育用文字列音声提供回路274をさらに含むことができ、教育用文字列音声提供回路274は、例えば、副操作274Aに示されるように、ユーザが読むことになっている教育用文字列の音声表現、例えば、スピーカまたはヘッドフォンを介して届く音を、装置出力構成要素220Bを介してユーザに提供するように構成され得る。図9に示す例では、ユーザがボタンを押して音声表現をトリガするが、他の実装では、音声表現は、自動的に、または所定の時間に、または装置入力構成要素220Aを介したユーザとのその他の対話に基づいて再生することができる。
【0101】
再び図2Cを参照すると、ある実装では、処理回路250の一部である教育用文字列提供回路252の教育用文字列提供回路294(図2Fにより詳細に示す)は、教育用文字列対話型視覚提供回路273を含むことができ、教育用文字列対話型視覚提供回路273は、例えば、副操作273Aに示されるように、ユーザが読むことになっている教育用文字列の対話型視覚表現を、装置出力構成要素220Bを介してユーザに提供するように構成され得る。対話型視覚表現はクリックされてもよく、例えば、図9に示される例では、ユーザはボタンを押して音声表現をトリガする。ある実装では、トリガされる音声表現は、教育用文字列全体であってもよく、教育用文字列応答音声提供回路275によって実行され、教育用文字列応答音声提供回路275は、例えば、副操作275Aに示されるように、教育用文字列の対話型視覚表現の少なくとも一部とのユーザの対話に応答して、ユーザが読むことになっている教育用文字列全体の音声表現を、装置出力構成要素220Bを介してユーザに提供するように構成される。「教育用文字列の対話型視覚表現」は、教育用文字列自体である必要はなく、むしろ、様々な実装において、対話型視覚表現は1つまたは複数のボタンを含むことができ、ユーザは、教育用文字列全体の音声提示をトリガすべく、これらのボタンのうちの1つまたは複数をクリックすることができる。
【0102】
別の実装では、トリガされる音声表現は、ユーザが読むことになっている教育用文字列の一部であってよく、例えば、ユーザが読むことになっている教育用文字列の一部は、教育用文字列応答音声提供回路の副文字列277によって実行されてよく、教育用文字列応答音声提供回路の副文字列277は、例えば、副操作277Aに示されるように、教育用文字列の対話型視覚表現の少なくとも一部とのユーザの対話に応答して、ユーザが読むことになっている教育用文字列の一部(例えば、副文字列)の音声表現を、装置出力構成要素220Bを介してユーザに提供するように構成され得る。例えば、ある実装では、教育用文字列の特定の単語をクリックすると、その単語のみの音声表現を再生するようトリガされ得る。別の実装では、教育用文字列の特定の単語をクリックすると、その単語の個々の言語構成要素のメニューが表示されてよく、それらの構成要素のうちの1つをクリックすると、その個々の言語構成要素のみの音声表現がトリガされてよい。
【0103】
ここで図2Dを参照すると、ある実装では、処理回路250の評価提示提供回路258は、対応する1つまたは複数のベースラインの個々の言語構成要素に対して分析された1つまたは複数の個々の言語構成要素の各々に関するユーザの発話のユーザへの視覚フィードバックをディスプレイ上に提示するように構成された視覚的提示提供回路282を含み得る。例えば、視覚フィードバックは、個々の言語構成要素のユーザの発音が実際にどのように聞こえたかの内訳であり得る。別の実装では、視覚フィードバックは色であってよく、その個々の言語構成要素の発音に対する2進または閾値スコアを示し、その個々の言語構成要素は、音素、音節、単語、または文であってよい。同様に、ある実装において、処理回路250の評価提示提供回路258は、特定の個々の言語構成要素との対話に応答して、特定の個々の言語構成要素に関するユーザの発話のうちの1つまたは複数の可聴フィードバックを、スピーカを介して提示するように構成された可聴提示提供回路284を含むことができる。例えば、図10に示し、かつ、既に説明したように、ユーザが特定の単語または音節のボタン1025をクリックすると、可聴提示提供回路284は、その個々の言語構成要素がどのように聞こえるはずであるかに関する可聴フィードバックを再生し、ユーザが特定の単語または音節のボタン1027をクリックすると、可聴提示提供回路284は、個々の言語構成要素のユーザの発音がどのように聞こえたかの可聴フィードバックを提示する。
【0104】
ここで図2Eを参照すると、ある実装では、処理回路250の教育用文字列音声サンプルデータ受信回路254は、教育用文字列マイクデータ受信回路286を含むことができ、教育用文字列マイクデータ受信回路286は、教育用文字列音声サンプルデータ、つまり教育用文字列を話すユーザの音声データを受信するように構成されている。ある実装では、教育用文字列マイクデータ受信回路286は、マイクからの録音を自動的にトリガしてもよい。別の実装では、例えば図9に示すように、ユーザは、提示の何らかの部分と対話して、マイクによる教育用文字列音声サンプルデータの録音の開始をトリガすることができる。
【0105】
上述のように、個々の言語構成要素分析回路256は、個々の言語構成要素分析回路256およびプロセッサ250の文脈で既に説明された発話評価エンジン310を含むことができる。すぐ後に詳細に説明する図3A~3Bは、1つまたは複数の実装による発話評価エンジンの詳細を説明している。発話評価エンジンと呼ばれる特定の構成要素は不要であり、つまり、様々な実装では、個々の言語構成要素分析回路256は、発話評価エンジン310として呼ばれることも機能することもなく、発話評価エンジン310のすべての機能を処理できることに留意する。
【0106】
ここで図2Fを参照すると、上述のように、ユーザが読むように構成された教育用文字列は、装置出力を通じてユーザに示されても示されなくてもよい。ある実装では、処理回路250の教育用文字列提供回路252は、ユーザが読む1つまたは複数の教育用文字列をユーザに提供するように構成された教育用文字列提供回路290を含むことができる。例えば、ある実装では、ユーザは装置のディスプレイから教育用文字列を読むことができ、異なる装置(例えば、装置50と接続されても接続されなくてもよい、および/または、装置50と通信していても通信していなくてもよい別個のスクリーン)のディスプレイから教育用文字列を読むことができ、または、教育用文字列の事前設定シートから教育用文字列を読むことができる。別の実施形態では、ユーザは、教育用文字列が講師、指導教員、評価者、または他の第三者(例えば、発話評価を支援するためにトレーニングされているかどうかは問わず、親、他の生徒、または他の関係者)によって発音されるか、さもなければ信号が送られた後、教育用文字列を繰り返すことができる。
【0107】
再び図2Fを参照すると、教育用文字列提供回路290は、ユーザが読む1つまたは複数の教育用文字列を、装置インタフェース構成要素220の装置出力構成要素220Bを介してユーザに提供するように構成された教育用文字列提供回路294を含むことができる。ある実装では、一度に1つのトレーニング文字列を示すまたは表示できることに留意する。しかし、他の実装では、単一の時点で、または、連続した様々な時間に複数のトレーニング文字列が示されてもよいし、表示されてもよい。
【0108】
再び図2Fを参照すると、教育用文字列提供回路290は、異なる装置のディスプレイ、1枚の紙(例えば、ワークシート)などの外部ソースから、または、講師もしくは他の第三者による最初の発話から読まれる1つまたは複数の教育用文字列をユーザに提供するように構成された教育用文字列提供回路298を含むことができる。ある実装では、一度に1つのトレーニング文字列を示すまたは表示できることに留意する。しかし、他の実装では、単一の時点で、または、連続した様々な時間に複数のトレーニング文字列が示されてもよいし、表示されてもよい。
【0109】
[発話評価エンジン]
【0110】
ここで図3A~3B、例えば、図3Aおよび図3Bを参照すると、図3A~3Bは、発話評価エンジン、例えば発話評価エンジン310、および、発話評価エンジン310の操作と関連付けられる構成要素のうちのいくつかの様々な実装を示す。上述のように、発話の単なる認識のための多くのシステムが存在する。これらのシステムは主に、幅広い使用ケース、例えば、多くのアクセント、発話パターン、語彙、およびユーザの発話障害のレベルにわたる認識のために設計されている。これらのシステムの多くは、ユーザの発話を認識し、かつ、ユーザの悪い発話または異質な発話を補正する発話認識エンジンを使用する。対照的に、本願を通して説明するシステム、方法、および装置は、発話認識エンジンではなく、発話評価エンジンを使用する。具体的には、発話評価エンジンは、悪い発話または異質な発話を補正しないが、それを指摘する。したがって、このエンジンは、発話認識エンジンよりもかなり大きなニュアンスを有している。ユーザの発話を正規化して、パターンマッチングを実行できるようにするため、アクセント、イントネーション、ピッチ、周波数、および強勢に関するデータの多くを破棄する発話認識エンジンとは対照的に、発話評価エンジンは、発話の品質を評価するときにこれらの要因をすべて考慮するが、発話の実際の内容は考慮しない。様々な実装では、システムはデータベースの一部でユーザが話している単語をシステムが既に知っている可能性があるため、発話評価エンジンはユーザが話している単語の認識には関心がない。例えば、発話評価エンジンは、ユーザの発話データ、例えば教育用文字列音声サンプルデータを受信し、ユーザが話そうとしている発話、例えば教育用文字列を既にカタログ化している。このように、発話評価エンジンは、ユーザがどの単語を話すかを判定することに焦点を当てるほとんどすべての発話認識エンジンによって破棄されるか、意図的に平滑化および最小化される微妙なニュアンスをユーザの発話の方法で細かく評価することに焦点を当てることができる。
【0111】
したがって、様々な実装では、発話評価エンジンは言語および定義に依存しない。発話評価エンジンは、単語の意味にあまり関心がなく、単語の発音が「理想」にどれだけ近いかにより関心がある場合がある。次に、発話評価エンジンの特定の機能により、所与の言語、例えば、英語の単語および文の「理想的な」発音がどのように判定されるかという問題が生じる。様々な実装において、発話評価エンジンは、発音を生成する多数の、例えば数千または数十万の既知のトレーニングデータセットで「トレーニング」される。ここで、一般的な慣習として、「トレーニングされる」または「トレーニング」とは、機械学習、例えば知能増幅(IA)、または、いくつかの実装では人工知能(AI)を指すことに留意する。対照的に、「教育」は一般に、ユーザに対する本発明の様々な実装の効果を示すために使用され、例えば、新しい言語を「教育」したり、適切に話す方法を「教育」する。これらの規則は、文脈で別段の指示がない限り、本願を通して一般的に当てはまる。したがって、様々な実装において、機械学習技術および知能増幅技術を含む様々な分析技術を使用して、トレーニングセットが分析および修正される。これらの技術については、本明細書でより詳細に説明する。
【0112】
ここで図3Aを参照すると、図3Aは、発話評価エンジン、例えば環境300で動作する発話評価エンジン310の1つの例示的な実装を示す。発話評価エンジン310のレイアウトは単に例示目的であり、その特定のレイアウトに限定されるべきではく、その特定のレイアウトは、単に便宜上、かつ、図解を容易にするために選択されたものであることに留意することが重要である。様々な実装において、発話評価エンジン310の複数の部分は複数の異なる場所にあってもよく、または完全に省略されてもよい。他の実装では、発話評価エンジン310自体は、サーバ10および/または装置50のうちの1つまたは複数の様々な部分にわたって省略または散在してもよい。本明細書の発明により企図される発話評価エンジン310の順列をすべてスケッチすることはほぼ不可能であるため、図示された実装は例示に過ぎず、特許請求された発明の全範囲は請求項によってのみ制限されることを思い出させるために残されているにすぎない。
【0113】
さらに、上記で一般的に述べたが、図3Aの矢印は、方法の一部ではなく発話評価エンジン310の例示的な構成要素であるため、プロセスフローではなく「典型的なデータフロー」を示す。ただし、図3Aのすべての構成要素と同様に、これらの矢印は、発話評価エンジン310でデータが流れ得る唯一の方法と見なされるべきではない。理解に役立たないデータフローは示されず、考えられる様々な他の実装では、データは様々な方向、または、様々な手法もしくは方法で流れる可能性がある。
【0114】
特に図3Aを参照すると、発話評価エンジン310は、図3Aに示されるように、サーバ10の一部であってもよいが、他の実装では、発話評価エンジン310は、装置50に装置の回路の一部として統合されてもよい(例えば、本明細書で説明されるように回路を配置すべくコード化された多目的装置であるか、特定の使い捨て装置であるかは問わない)。様々な実装では、発話評価エンジン310は、サーバ10および装置50にわたって分割されてもよく、サーバ10は、回路および構成要素のいくつかを有し、発話評価エンジン310の機能のいくつかを実行し、装置50は、他の回路、構成要素、および発話評価エンジン310の機能の実行を有する。様々な実装において、サーバ10および装置50の役割は、発話評価エンジン310の実装に関して固定されており、他の実装において、発話評価エンジン310の実装におけるサーバ10および装置50の役割は、1つまたは複数の要因、例えば、通信ネットワーク105のネットワーク状態、または装置50のタイプに基づいて動的に変化してもよい。例えば、ある実装において、装置50は、発話評価エンジン310の構成要素および回路をすべて実行するための計算リソースを持たない場合があり、これは、装置50の計算リソースが他のタスクのパフォーマンスに拘束されているため、または装置50に十分な計算リソースを持つための物理的属性がないためである。そのようなシナリオでは、発話評価エンジン310の負荷の一部がサーバ10にシフトされる可能性がある。
【0115】
再び図3Aを参照すると、図3Aは、1つまたは複数の実装による発話評価エンジン310を示している。ある実装において、発話評価エンジン310は、装置50から教育用文字列音声サンプルデータ340を受信し得る。発話評価エンジン310が装置50の内部にある場合、この受信は、例えばバスまたは他の内部経路を介して装置50の内部で起こり得る。発話評価エンジン310が装置50の外部、例えばサーバ10内にある場合、通信ネットワーク105または同様のものを介して教育用文字列音声サンプルデータ340の受信が起こり得る。発話評価エンジン310が教育用文字列音声サンプルデータ340を受信すると、発話評価エンジン310、特に個々の発話構成要素セパレータ312は、教育用文字列音声サンプルデータ340を1つまたは複数の個々の言語構成要素333に分解し得る。本明細書でより詳細に論じられるように、個々の言語構成要素333は、音素、例えば、発話音に対応し、かつ、人間の耳によって言語の単一の特有の音として知覚される、言語の音韻体系の単位であり得る。他の実施形態では、個々の言語構成要素333は、音節、二重母音、二重音字、任意の他の音声単位、単語、文節、文、段落、または、段落のセットもしくはテキストのグループであり得る。
【0116】
再び図3Aを参照すると、いくつかの実装では、発話評価エンジン310の個々の発話構成要素セパレータ312が教育用文字列音声サンプルデータ340を1つまたは複数の個々の言語構成要素333に分解した後、1つまたは複数の個々の言語構成要素333は、次に、対応するベースラインの個々の言語構成要素335と比較される。上記で簡単に説明したように、ベースラインの個々の言語構成要素335は、内部または外部ソース、例えば、図3Aに示すようなベースライン音声データデータベース350から取得することができる。様々な実装において、ベースライン音声データデータベース350は、装置50、サーバ10の一部であってもよく、または別個の構成要素、例えば、異なる位置にある異なるサーバであってもよい。様々な実装において、ベースライン音声データデータベース350は、ベースラインの個々の言語構成要素335の特性を判定するトレーニングデータを含み得る。ベースライン音声データデータベース350は、標準トレーニングセット、例えば、2つの例として、ウォールストリートジャーナルの発話テキストコーパスから導出される英国英語のスピーチコーパス「WSJCAMO」、および、「Santa Barbara Corpus of Spoken American English」であり得るが、本明細書で説明する実装では、他のコーパスまたはカスタムコーパスまたはコーパスのセットを使用できる。さらに、ベースライン音声データデータベースは、コーパス内の様々な音素およびと発話の特徴のベースラインレベル値を作成するためのコンピュータ認識、プロファイリング、およびその他の機械学習/知能増幅技術の使用による、修正されたコーパスまたはコーパスのセットであり得る。
【0117】
再び図3A~3B、例えば図3Aを参照すると、様々な実装において、ベースライン音声データデータベース350は、1つまたは複数のベースラインの個々の言語構成要素335を発話評価エンジン310の個々の発話構成要素分析器314に配信し得る。図3Aに示すように、個々の発話構成要素分析器314は、個々の言語構成要素333およびベースラインの個々の言語構成要素335を受信することができる。個々の発話構成要素分析器314は、このデータを受信すると、受信した個々の言語構成要素をベースラインの個々の言語構成要素と比較し、様々な発音特性をチェックすることができる。様々な実装では、発音特性には、ピッチ、イントネーション、周波数、強勢、およびアクセントなどの特徴が含まれる場合がある(図3Aでは、文字P、I、F、S、Aを含むボックスとして表される)。
【0118】
ある実装では、各特徴には、その個々の言語構成要素が、対応するベースラインの個々の言語構成要素とどれだけ厳密に一致するかを示す数値スコアが与えられる。例えば、音「th」の場合は、この比較によって、ピッチが80%一致、イントネーションが60%一致、周波数が75%一致、強勢が20%一致、アクセントが44%一致することを提示できる。この情報はキャプチャされ、発話全体の評価に使用され、ユーザが問題を修正するのに役立つより正確なフィードバックの判定に使用するために追跡され得る(例えば、同じ音で強勢の問題が引き続き発生する場合は、様々なレベルの強勢を有する単語内のその音を将来のレッスンで強調することができる)。
【0119】
別の実装では、各特徴に2進スコアが与えられ、特定の個々の言語構成要素が、対応するベースラインの個々の言語構成要素と一致するかどうかを判定し、例えば、一致が十分に近い場合は「yes」、一致が不十分な場合は「no」である。さらに別の実装では、各特徴は、例えば、1から5などの離散値のセットのうちの1つまたは複数評価され、5が最も近い一致であり、1が最も遠い一致である。ある実装において、離散値のセットの各離散値は、個々の言語構成要素333の1つの発音特性とベースラインの個々の言語構成要素335の1つの発音特性との間の近さの範囲を表してもよい。ある実装では、これらの閾値は、色分けされた値として表示されてよく、例えば、1は赤、2は明るい赤、3は黄色、4は明るい緑、5は輝く緑である。他の実装は、個々の言語構成要素333の1つの発音特性とベースラインの個々の言語構成要素335の1つの発音特性との間の近さのスコアリングおよび判定の他の既知の方法を使用してもよい。
【0120】
さらに、別の実装では、様々な個々の言語構成要素333に、個々の言語構成要素333の各々に関する1つまたは複数の発音特性を組み合わせることができる、例えば数値、2進、閾値などの全体スコアを割り当てることができる。組み合わせは、単なる加法であ得るか、または、例えば、様々な実装において、ピッチおよびイントネーションはアクセントおよびタイミングよりも加重される場合がある、加重平均を含む場合がある。ある実装では、これにより、個々の言語構成要素333の各々に全体スコアが割り当てられる場合がある。同様に、ある実装では、様々な発音特性に全体スコア、例えば数値、2進、閾値などを割り当てることができ、各個々の言語構成要素333全体で特定の発音特性を組み合わせることができる。上記のように、個々の言語構成要素333を平均化または追加するか、個々の言語構成要素333のいくつかに異なる加重をすることができる。
【0121】
ある実装において、個々の言語構成要素333のスコアと発音特性の様々な組み合わせを組み合わせて、サンプル全体のパフォーマンススコアを得ることができる。そのような実装では、全サンプルパフォーマンス構成要素分析器322(本明細書の次の段落で説明する)は除去されるか、使用されない場合がある。
【0122】
全サンプルパフォーマンス構成要素分析器322を参照して、再び図3Aを参照すると、教育用文字列音声サンプルデータ340が全サンプルパフォーマンス構成要素分析器322に配信されてよく、図3Aでは、発話評価エンジン310の他の構成要素とは別個に示されているが、これは単に例示であり、説明を簡単にするために示されている。様々な実装において、全サンプルパフォーマンス構成要素分析器322は、発話評価エンジン310の他の部分と組み合わされてもよく、図3Aに示されたものとは異なる場所に現れてもよく、または例えば上記のように完全に排除されてもよい。発話評価エンジン310のレイアウトは、単に例示を目的とするものであり、単に便宜上、かつ、例示を容易にするために選択された特定のレイアウトに限定されるべきではないことに留意することが重要である。
【0123】
再び図3Aを参照すると、教育用文字列音声サンプルデータ340に対して実行される様々な分析を組み合わせて、教育用文字列音声サンプルデータの分析345として返すことができる。ある実装では、教育用文字列音声サンプルデータの分析345は、上記の分析、ならびに当技術分野で知られているがここでは言及されていない他の分析を含むことができる。発話評価エンジン310が装置50の一部である実装では、装置50のメモリ245を除いてデータの「移動」がない場合があり、またはデータは内部接続に沿って、例えばバスまたは装置50のその他の接続を介して移動する場合がある。発話評価エンジン310が部分的または全体的にサーバ10および/または追加のサーバで実装される実装では、教育用文字列音声サンプルデータの分析345は、通信ネットワーク105を介して送信され得る。
【0124】
ここで図3Bを参照すると、ある実装において、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333およびベースラインの個々の言語構成要素335の「ピッチ」発音特性を比較するピッチ評価回路314Aを含み得る。ピッチの発音特性には、区別または知覚の目的で音素に適用される音の特性(周波数など)の知覚特性を表す特性が含まれるが、これに限定されない。ある実装では、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333とベースラインの個々の言語構成要素335の「イントネーション」発音特性を比較するイントネーション評価回路314Bを含むことができる。イントネーションの発音特性には、話者の意味、態度、および感情を変えるために、例えば質問と発言を区別するために使用できる話されるピッチのバリエーションが含まれるが、これらに限定されない。ある実装において、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333およびベースラインの個々の言語構成要素335の「周波数」発音特性を比較する周波数評価回路314Cを含み得る。周波数発音特性には、例えばヘルツなどの個々の言語構成要素を話す場合に行われる音の周波数の測定が含まれるが、これに限定されない。ある実装では、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333およびベースラインの個々の言語構成要素335の「強勢」発音特性を比較する強勢評価回路314Dを含むことができる。ある実装では、強勢発音特性には、特定の音素、音節、単語や語句、またはより大きな語彙単位のセットの一部である他の語彙単位に与えられる相対的な強調が含まれるが、これらに限定されず、これは、うるささの増加、音素の長さ、ピッチの変化、およびその他の要因などの特性によって引き起こされる可能性がある。ある実装では、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333とベースラインの個々の言語構成要素335の「アクセント」発音特性とを比較するアクセント評価回路314Eを含むことができる。ある実装において、アクセント発音特性には、個人、グループ、位置、またはその他の単独または複数の個人またはエンティティのセットに固有の、変更または調整された発話、スピーキング、または方言の方法が含まれるが、これらに限定されない。
【0125】
ある実装において、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333とベースラインの個々の言語構成要素335の「発話速度」発音特性を比較する発話速度評価回路314Fを含むことができる。ある実装において、発話速度発音特性には、音素が個々にまたはグループとして話される速度が含まれるが、これに限定されず、オプションで音素および/または他の語彙単位間の間隔および一時停止を含めることができる。ある実装では、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333とベースラインの個々の言語構成要素335の「ためらい」発音特性とを比較するためらい評価回路314Gを含むことができる。ある実装において、ためらい発音特性には、特定の個々の言語構成要素の発音の前、最中、または後のためらいの量の分析が含まれるが、これらに限定されない。ある実装では、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333とベースラインの個々の言語構成要素335の「フィラー音」発音特性を比較するフィラー音評価回路314Hを含むことができる。ある実装では、フィラー音発音特性には、プレースホルダー、フィラー音、および/またはフィラー単語の評価が含まれるが、これに限定されるものではなく、すなわち、例えば、「um」、「like」、「ah」、「you know」、「er」など、一時停止は行われているが話者は話を終えていないことを示す信号として会話で話される音または単語である。ある実装では、個々の発話構成要素分析器314は、例えば、個々の言語構成要素333とベースラインの個々の言語構成要素335の「チャンク」発音特性を比較するチャンク評価回路314Jを含むことができる。ある実装では、チャンク発音特性には、強調を追加するための単語または文の間の一時停止が含まれるが、これに限定されない。ここでは、他の発音特性が考慮され、図3Bに示されている9つは、説明のみを目的としていることに留意することが重要である。さらに、様々な実装では、図示された発音特性の一部またはすべてを省略したり、異なる加重したり、強調したりすることができる。
【0126】
ここで図5A~5F以降を参照すると、実装を示す一連のフローチャートが続く。理解を容易にするために、初期フローチャートは実装例を介して実装を提示し、その後、以下のフローチャートは、既に提示された1つまたは複数のフローチャートに基づいた副構成要素操作または追加構成要素操作として、初期フローチャートの代替実装および/または拡張を提示するように、フローチャートは整理されている。当業者は、本明細書(例:実装例を示すフローチャートの提示から始まり、その後のフローチャートへの追加および/またはさらなる詳細を提供する)で利用される提示のスタイルにより、一般に、様々なプロセス実装の迅速かつ容易な理解が可能になることを理解するであろう。加えて、当業者は、本明細書で使用される提示のスタイルが、モジュール式および/またはオブジェクト指向のプログラム設計パラダイムにも適していることをさらに理解するであろう。
【0127】
さらに、図5A~5Fおよびその後に続く図では、様々な操作がボックス内の方法で描かれ得る。そのような描写は、内部ボックス内の操作が、1つまたは複数の外部ボックスに示された操作段階のオプションの例示的な実施形態を含み得ることを示し得る。ただし、内部ボックス操作は、関連付けられるいずれの外部ボックスとも別の独立した操作と見なされ、他のすべての図示された操作に関して任意の順序で実行されるか、同時に実行され得ることを理解されたい。さらに、図5A~5Fから図8A~8Bに示されたこれらの操作、および本明細書で説明される他の操作は、機械、製造品、または物質の組成物のうちの少なくとも1つによって実行され得る。
【0128】
ここで図5A~5Fを参照すると、図5A~5Fは、ユーザが読むように構成された少なくとも1つの教育用文字列を提供する段階を示す操作502を含み得る操作500を示している。例えば、図2A~2F、例えば図2Aは、教育用文字列提供回路252を示し、これは、様々な実装において、ユーザが読むように構成された少なくとも1つの教育用文字列を提供するように構成され得る。操作500はさらに、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階を示す操作504を含むことができる。例えば、図2A~2F、例えば、図2Aは、様々な実装において、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータに構成され得る、教育用文字列音声サンプルデータ受信回路254を示す。操作500は、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階を示す操作506をさらに含むことができ、(506a)当該分析段階は、ベースラインの個々の言語構成要素の音声データの対応する1つまたは複数の発音特性に対する少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性の測定を含む。例えば、図2A~2F、例えば図2Aは、様々な実装において、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析するように構成され得る個々の言語構成要素分析回路256を示す。操作500は、ユーザに評価提示を提供する段階を示す操作508をさらに含むことができ、(508a)評価提示は、分析された1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性に基づく教育用文字列音声サンプルデータの評価のユーザへの提示を含む。例えば、図2A~2F、例えば図2Aは、評価提示提供回路258を示し、様々な実装において、分析された1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性に基づく教育用文字列音声サンプルデータの評価をユーザに提示するように構成されてもよい。これらの操作は、図2A~2Fとの関連で既により詳細に説明されたが、さらなる実装は、追加のフローチャートおよび図に関して本明細書においてより詳細に説明される。
【0129】
ここで図5Bを参照すると、少なくとも1つの教育用文字列は、例えば、既に説明した段階および回路が適用され得る同じ処理セットの一部である複数の教育用文字列を含み得ることに留意する。例えば、ある実装では、特定のレッスンに関連するすべての教育用文字列を一度にスクリーン上で表示し、一度に処理することができる。別の実装では、必ずしも関連していない複数の教育用文字列を共にグループ化して、直列、並列、または他の形式で一緒に処理することができる。したがって、この文書全体を通して、特に直接、または文脈で示されていない限り、「教育用文字列」は複数の教育用文字列の可能性を含むと理解されるべきである。図5Bを参照すると、操作502は、ユーザが読むように構成された複数の異なる教育用文字列のセットを提供する段階を示す操作560を含み得る。
【0130】
再び図5Bを参照すると、図5Bは、1つまたは複数の実装に従って、操作500の一部であり得る1つまたは複数の追加の操作を示す。例えば、ある実装において、操作500は、1つまたは複数のさらなる教育用文字列の判定を受信する段階を示す操作510を含み得る。例えば、図2Bを参照すると、ある実装において、さらなる教育用文字列受信回路266は、1つまたは複数のさらなる教育用文字列の判定を受信するように構成され得る。ある実装では、1つまたは複数のさらなる教育用文字列は、いくつかの実装では別の人間であり、いくつかの実装では機械、回路、ソフトウェア、またはそれらの組み合わせである外部エンティティによって判定される。1つまたは複数のさらなる教育用文字列は、(510A)収集された教育用文字列音声サンプルデータの評価に少なくとも部分的に基づいてもよい。ある実装では、判定は、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々の評価にアクセスできる審査官によって実行される。
【0131】
明示的には示されていないが、審査官は操作500によって生成されたデータに広範囲にアクセスできる。本願の目的のために、審査官は「ユーザの評価および教育用文字列音声サンプルデータにアクセスできるが、必ずしもそれ自体がユーザであるとは限らないエンティティ」として定義されて、人または計算ベースである場合がある。審査官は、教師、指導教員、療法士(例えば、言語療法士)、親、ユーザの友人、ユーザを監視するコンピュータ、装置50の一部、サーバ10の一部、図1に示したコンピュータとは別のコンピュータまたは、教育用文字列のユーザの発音の評価を処理できる他の人間または計算エンティティであり得る。様々な実施形態において、審査官は、彼らの指導の下で複数のユーザを有し得る。そのような実施形態では、審査官は、名前、写真、電子メールアドレス、病歴、言語の以前の経験レベルなどを含む、ユーザの様々な識別情報にアクセスすることができる。様々な実装において、審査官は、ユーザの各々について、ユーザが完了したいくつかのレッスンの音声または視覚表現(例えば、この文脈トのレッスンは「共通のテーマを持つトレーニング文字列のセット」を意味する)、ユーザが完了したカリキュラムの量(例えば、ユーザが完了したトレーニング文字列の総数)、各ユーザの絶対パフォーマンス、各ユーザの高低パフォーマンス、各ユーザの加重平均パフォーマンス、各ユーザの非加重パフォーマンス、審査官の指導の下での他のユーザに対する各ユーザの曲線パフォーマンス、より大きな人口統計グループに対する各ユーザの曲線パフォーマンスなどを見ることができる。
【0132】
ここで図5Cを参照すると、図5Cは、1つまたは複数の実装に従って、操作500の一部であり得る1つまたは複数の追加の操作を示す。例えば、図5Cに示されるように、操作500は、教育用文字列音声サンプルデータ(512A)の評価を収集する操作512を示してもよく、評価された教育用文字列音声サンプルデータは、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々の評価および/または収集された教育用文字列音声サンプルデータの評価に少なくとも部分的に基づいて1つまたは複数のさらなる教育用文字列を判定する操作514を含み、副操作514Aに示すように、1つまたは複数のさらなる教育用文字列は、分析および評価のためにユーザからキャプチャされた場合にユーザの発話言語スキルを向上させるために計算される。例えば、ある実装において、図2Bを参照すると、教育用文字列音声サンプルデータ評価収集回路262は、例えば、教育用文字列音声サンプルデータの評価を収集する操作512と、例えば、収集された教育用文字列音声サンプルデータの評価に少なくとも部分的に基づいて1つまたは複数のさらなる教育用文字列を判定する操作514とを実行するように構成され得る。上述のように、操作512は評価を収集し、これにより、ユーザは戻って正確な間違いを見直すことができ、ユーザは、問題がある部分を過度の困難なく確認することができる。第2に、ユーザが言語スキルを学習または改善するのを支援している前述の審査官が、ユーザの言語スキルの弱点と強みを正確に確認できる。これにより、ユーザの弱点と強みがより迅速に識別され、かつ、教育用文字列のさらなる反復の対象とされ得るように、より多くの対象レッスンをユーザにもたらすことができるので、ユーザが対象言語で所望の流暢さのレベルを達成するために必要な全体的な時間を短縮できる。
【0133】
再び図5Cを参照すると、操作514は、1つまたは複数の個々の言語構成要素の特定の発音特性を強調する1つまたは複数のさらなる教育用文字列を選択する段階を示す操作520を含み、対応する1つまたは複数のベースラインの個々の言語構成要素の特定の発音特性に対して測定した場合、比較スコアが低いと判定された。例えば、特定の発音特性(例えば、「アクセント」)を強調する1つまたは複数のさらなる教育用文字列は、対応する個々の言語構成要素のアクセント発音特性に対して測定した場合、アクセント発音特性が低い比較スコアを持つと判定される場合に選択できる。別の実装では、操作520は、個々の言語構成要素のイントネーション特性を強調するさらなる教育用文字列のセットを選択する段階を示す操作522を含んでよく、これは、図5Cに示すように、対応するベースラインの個々の言語構成要素のイントネーション特性に対して測定した場合に、イントネーション特性が少なくとも1つの個々の言語構成要素の比較スコアが低いと判定されたためである。
【0134】
ここで図5Dを参照すると、ある実装において、操作514は、1つまたは複数の個々の言語構成要素を強調する1つまたは複数のさらなる教育用文字列を選択する段階を示す操作530を含んでよく、対応する1つまたは複数のベースラインの個々の言語構成要素に対して測定された場合、比較スコアが低いと判定される。例えば、ユーザは、特定の個々の言語構成要素、例えば「k」音に問題がある可能性があり、これは複数の異なる発音特性にわたって検出され得る。このような例では、個々の言語構成要素が関係する様々な状況をユーザに提供するために、さらなる教育用文字列が選択され、ユーザが既に理解または習得した概念をさかのぼって時間を無駄にしないようにし、ユーザが弱い領域により多くの時間を費やすことができるようにする。
【0135】
ある実装では、二重母音「YI」の測定された発音特性の1つまたは複数が、二重母音「YI」のベースラインの対応する発音特性に対して測定された場合に、より低い比較スコアを持つと判定された場合、操作530は、二重母音「YI」を強調するさらなる教育用文字列のセットを選択する段階を示す操作532をさらに含むことができる。異なる実装では、操作530は、1つまたは複数のさらなる教育用文字列を選択する段階を示す操作534をさらに含んでよく、1つまたは複数のさらなる教育用文字列は、収集された教育用文字列音声サンプルデータの少なくとも1つの評価で検出されるイントネーション、周波数、強勢、アクセント、およびタイミングの1つまたは複数の間違いに関してユーザに教えることを強調する。ある実装では、操作514は、さらなる教育用文字列のセットから、特定の発音特性を教えることを強調することを目的とする1つまたは複数のさらなる教育用文字列を除去する段階を示す操作536を含んでよく、教育用文字列音声サンプルデータは、1つまたは複数の個々の言語構成要素の特定の発音特性と、1つまたは複数のベースラインの個々の言語構成要素の特定の発音特性との違いをほとんどまたはまったく実証しない。例えば、ある実装において、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素のためらい評価の発音特性が、対応するベースラインの個々の言語構成要素のためらい評価の発音特性の95%以内にあると判定された場合、その後、ためらい評価の発音特性のトレーニングを強調する特定の教育用文字列を、ユーザに表示されるさらなる教育用文字列のセットから削除することができる。
【0136】
ここで図5Eを参照すると、ある実装では、操作500は操作502(ユーザが読むように構成された教育用文字列を提供する)、504(教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータの受信)、506(教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素の分析)、および特定の回数だけ複数の異なる教育用文字列用508(ユーザへの評価提示の提供)を繰り返す操作である操作542をさらに含むことができる。例えば、ある実装では、これらの操作を16回繰り返し、例えば、異なるが関連する複数の教育用文字列を使用して、レッスンを構成する。ただし、1を超える任意の合理的な数のレッスンが考えられるため、16という数字は単なる例示にすぎない。さらに、教育用文字列は関連している可能性があるが、これも必須ではない。ある実施形態では、教育用文字列は、操作530、532、および534に関して上述したように関連し、特定の個々の言語構成要素または発音特性の弱点の検出がユーザで検出され、その特定の個々の言語構成要素または発音特性の周りに教育用文字列のセットが構築される。
【0137】
再び図5Eを参照すると、ある実装では、既に説明した操作542を含むことができる操作500は、特定の回数ごとに教育用文字列音声サンプルデータの評価を収集する段階を示す操作544も含むことができ(544A)、評価された教育用文字列音声サンプルデータは、少なくとも部分的には、ユーザからキャプチャされた場合にユーザの発話言語スキルを向上させるために計算される1つまたは複数のさらなる教育用文字列を判定するために使用される。キャプチャされたさらなる教育用文字列は、例えば操作506での分析、および例えば操作508での評価提示に使用される。
【0138】
再び図5Eを参照すると、ある実装において、既に説明した操作542および544を含み得る操作500は、収集された教育用文字列音声サンプルデータの評価を使用して1つまたは複数のさらなる教育用文字列を判定する段階を示す操作546も含み得る。上記のように、プロセスは反復プロセスとして有効である場合があり、上記のように、教育用文字列のセットが分析され、ユーザの弱点と強さが人間の審査官または分析アルゴリズムによって選択され、さらに教育用文字列のセットがユーザに提示され、プロセスが繰り返されて続行される。この反復プロセスは、個々の言語構成要素の発音特性を使用して利用可能な微調整と相まって、時間の浪費と滑りの少ない、ユーザのより迅速な進歩を可能にする。
【0139】
ここで図5Fを参照すると、ある実装では、既に説明したように、操作542、544、および546を含み得る操作500は、1人または複数のユーザのセットをクラスにグループ化する操作552も含み得る。この文脈において、クラスとは、審査官の指導下にあるかどうか、または同じ審査官の指導下にあるかどうかにかかわらず、生徒のあらゆる規模のグループを意味する。ある実装では、操作500は、クラス内の各ユーザに対して542(特定の数の文字列のプロセスを繰り返す)および544(各文字列のプロセスの各結果を収集する)を実行する段階を示す操作554も含む。ある実装では、この操作は、審査官が生徒の成績に関する詳細データを受信できる方法である。ある実装では、操作500は、クラスの1つまたは複数のパフォーマンス特性とともに、クラスのリストを命令エンティティ、例えば審査官に視覚的に表示する段階を示す操作556も含む。例えば、既に説明したように、命令エンティティは、ユーザの各々について、ユーザが完了した多数のレッスンの音声または視覚表現を表示(例えば、この文脈のレッスンは、「共通のテーマを持つトレーニング文字列のセット」を意味する)、ユーザが完了したカリキュラムの量(例えば、ユーザが完了した教育用文字列の総数)、各ユーザの絶対パフォーマンス、各ユーザの高低パフォーマンス、各ユーザの加重平均パフォーマンスユーザ、各ユーザの非加重パフォーマンス、命令エンティティの指導の下での各ユーザの他のユーザに対する曲線パフォーマンス、およびより大きな人口統計グループに対する各ユーザの曲線パフォーマンスを見ることができる。
【0140】
再び図5Fを参照すると、ある実装では、操作542、544、546、552、554、および556を含むことができる操作500は、操作557も含むことができ、操作557では、クラス内の1人または複数のユーザの命令エンティティから選択が受信され、命令エンティティは、例えば、発音特性、または特定の個々の言語構成要素のパフォーマンスなど、より多くの特性を見たいと考えている。命令エンティティは、段階556で説明された視覚表示に基づいて、人間またはその他の目をベースとする命令エンティティについてこの選択を行うことができる。ある実装では、クラスからの1人または複数のユーザの選択後、操作500は、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々について、構成要素スコアを命令エンティティに提示する段階を示す操作558を含んでよく、これは、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す。
【0141】
ここで図6を参照すると、図6は、操作502の様々な代替の実装を示している。例えば、図6に示すように、操作502は、ユーザが読むように構成された教育用文字列の視覚表現を提供する段階を示す操作602を含み得る。ある実装では、図2Cを参照すると、教育用文字列視覚提供回路272は、ユーザが読むように構成された教育用文字列の視覚表現を提供するように構成され得る。視覚表現は、例えば、図9に示すように、例えばモニタまたはタッチスクリーン上で表示することができる。
【0142】
再び図6を参照すると、ある実装において、操作502は、ユーザが読むように構成された教育用文字列の視覚表現を提供する段階を示す操作604と、ユーザからの要求に応答して、ユーザが読むように構成された教育用文字列の音声表現を提供する段階を示す操作606とを含み得る。ある実装では、図2Cを参照すると、教育用文字列視覚提供回路272は、ユーザが読むように構成された教育用文字列の視覚表現を提供するように構成されてよく、教育用文字列音声提供回路274は、ユーザからの要求に応答して、ユーザが読むように構成された教育用文字列の音声表現を提供するように構成されてもよい。図9に示すように、ユーザからの要求は、教育用文字列の視覚提供の一部との対話の形で、例えば、教育用文字列の視覚表現の下にあるボタンを押すことで行われる。
【0143】
再び図6を参照すると、ある実装において、操作502は、ユーザが読むように構成された教育用文字列の対話型視覚表現を提供する段階を示す操作608、ユーザが教育用文字列の対話型視覚表現と対話することに応答して、ユーザが読むように構成された教育用文字列の音声表現を提供する段階を示す操作610、ユーザが教育用文字列の対話型視覚表現の対応する部分と対話することに応答して、ユーザが読むように構成された教育用文字列の一部の音声表現を提供する段階を示す操作612の1つを含んでもよい。ある実装では、図2Cを参照すると、教育用文字列対話型視覚提供回路273は、ユーザが読むように構成された教育用文字列の対話型視覚表現を提供するように構成されてよく、教育用文字列応答音声提供回路275は、教育用文字列の対話型視覚表現と対話するユーザに応答して、ユーザが読むように構成された教育用文字列の音声表現を提供するように構成されてもよく、教育用文字列応答音声提供回路277は、図2Cとの関連で既に説明したように教育用文字列の対話型視覚表現の対応する部分と対話するユーザに応答して、ユーザが読むように構成された教育用文字列の一部の音声表現を提供するように構成されてもよい。
【0144】
ある実装では、教育用文字列の視覚表現の特定部分とのユーザの対話により、教育用文字列のその部分、または教育用文字列のその部分の別の副部分の音声表現の提供がトリガされてよく、例えば、教育用文字列のその部分を構成する1つまたは複数の個々の言語構成要素である。再び図6を参照すると、ある実装において、操作612は、ユーザが教育用文字列の対話型視覚表現の対応する部分と対話することに応答して、ユーザが読むように構成された教育用文字列の部分の1つまたは複数の発音特性の音声および/または視覚表現を提供する段階を示す操作614をさらに含むことができる。例えば、ある実装では、視覚表現の一部である教育用文字列の一部をクリックすると、例えば、教育用文字列のその部分の個々の言語構成要素がどのように発音されるかの視覚または音声表現を含むボックスを提示できる。
【0145】
ここで図7Aを参照すると、ある実装において、操作508は、評価提示の一部として、1つまたは複数の個々の言語構成要素の1つまたは複数の発音特性の各々について、(702A)構成要素スコアを提供する段階を示す操作702を含んでよく、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す。例えば、構成要素スコアは、様々な発音特性、および個々の言語構成要素と特定のベースラインの個々の言語構成要素との間の個々のデルタの各々を考慮することができる。様々な実装では、各発音特性に独立した加重があり、ユーザの以前の結果に基づいて変更または最適化され得る(例えば、一部のユーザはアクセント発音特性により多くの作業が必要になることがあるため、発音特性の加重が大きくなるため、ユーザは他の発音特性を正確に近づけることで「チート」することはできないが、アクセントが欠けている)。ある実装では、構成要素スコア702Aは2進インジケータ704を含むことができ、2進インジケータは、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素と一致するかどうかを表す。別の実装では、構成要素スコア702Aは、数値スコアインジケータ706を含むことができ、数値スコアインジケータは、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素と一致する離散的なきめ細かい量を表す。さらに別の実装では、構成要素スコア702Aは、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを段階的なカラースケールで視覚的に表す色分けスコアインジケータ708を含むことができる。例えば、図10に示すように、「赤」は誤りを示し、「緑」はより近い一致を示し、様々な実装では、赤と緑の色合いは、一致がどれだけ離れていたか、または近かったかに応じて暗くまたは明るくなり得る。
【0146】
再び図7Aを参照すると、ある実装において、操作508は、分析された教育用文字列音声サンプルデータに基づいて、教育用文字列の言語におけるユーザの流暢さの数値評価をユーザに提供する段階を示す操作710を含み得る。図10からわかるように、個々の言語構成要素それぞれにスコアが割り当てられた教育用文字列が分析された後、累積スコアが集計され、それがユーザの教育用文字列の言語の流暢さの評価として機能し得る。いくつかの実装では、教育用文字列の言語でのユーザの流暢さの数値評価はその特定の教育用文字列のみに基づき、他の実装では、教育用文字列の言語でのユーザの流暢さの数値評価は、特定の教育用文字列、および分析された1つまたは複数の以前の教育用文字列に基づく。
【0147】
再び図7Aを参照すると、ある実装において、操作508は、評価提示の一部として、1つまたは複数の個々の言語構成要素の各々について、個々の言語構成要素の1つまたは複数の発音特性の評価に基づく当該個々の言語構成要素に関するユーザの発話の視覚表現を提供する段階を示す操作712を含んでよく、発話または聴覚障害のある人の言語スキルの向上を支援する。例えば、ある実装において、システムは、精神的、発話的、聴覚的、または他の方法で障害のある人の言語スキルの向上を支援するために使用されてもよい。例えば、聴覚障害のある人は、話し方と言語の音の意図との間の言語の違いを聞いたり処理したりできない場合がある。1つまたは複数の個々の言語構成要素の発音特性の視覚表現を提供することにより、発音特性を学習するための異なる経路が聴覚障害者に提供され得る。これにより、聴覚障害者が使用できない学習経路に頼ることなく、聴覚障害者が言語スキルを向上させることができる。
【0148】
ここで図7Bを参照すると、ある実装において、操作508は、ユーザと関連付けられる装置のスクリーン上でユーザに評価提示を表示する段階を示す操作720を含んでよく、(720A)評価提示は、ユーザからの対話を受け取るように構成された1つまたは複数の対話型オブジェクトを含む。例えば、ある実装では、評価提示には、その個々の言語構成要素ごとに教育用文字列の各単語を見るための対話型オブジェクトが含まれ得る。別の実装では、特定の個々の言語構成要素のベースライン発音の隣にある特定の個々の言語構成要素のユーザの発音を聞くための対話型オブジェクトを含めることができる。前述のように、これらの例の一部を図10に示し、これには、教育用文字列の特定の単語が対話される場合にポップアップとして表示されるボックス1050が含まれる。
【0149】
再び図7Bを参照すると、ある実装において、評価提示720Aは、ユーザからの対話に応答して、個々の言語構成うちの要素の少なくとも1つを対話型オブジェクトとして表示する評価提示722を含むことができ、個々の言語構成要素と、1つまたは複数のベースラインの個々の言語構成要素の対応するベースラインの個々の言語構成要素との間の個々のスコア比較を表示する。例えば、図10に示すように、少なくとも1つの単語(例えば、単語「清掃した」)が対話されると、個々の言語構成要素の個々のスコア比較(例えば、単語「清掃した」の音素、例えば「K」、「L」、「IY」、「N」、「D」)が表示され、個々の言語構成要素とベースラインの個々の言語構成要素との間に個々のスコア比較(例えば、図10では色分けされた2進システムであるが、他のスコアも考えられ、全体に言及される)が表示される。別の実装では、評価提示722は、個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間のピッチの個々の比較724、イントネーションの個々の比較、強勢の個々の比較、アクセントの個々の比較、発話速度の個々の比較、およびためらいの個々の比較、およびフィラー音の個々の比較、およびチャンクの個々の比較を含み得る。さらに別の実装では、個々の比較724は、個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間のピッチの個々の比較、イントネーションの個々の比較、強勢の個々の比較、アクセントの個々の比較、発話速度の個々の比較、ためらいの個々の比較、フィラー音の個々の比較、チャンクの個々の比較を示す個々の比較726を含んでよく、各々には、個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間のデルタを表す数値スコアがある。
【0150】
再び図7Bを参照すると、ある実装において、操作722は、個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間の個々のスコア比較は、ユーザの学習時間の短縮を促進するために、特定の閾値レベル未満のすべての個々のスコア比較に対して表示されることを示す操作728を含み得る。ある実装では、特定の閾値レベルは動的に調整されてもよく、例えば、ユーザが改善するにつれて、個々のスコア比較を示すための閾値レベルは時間とともに増加してよく、ユーザはますます完璧に近づいていく。別の実装では、特定の閾値レベルは、既に説明したように、1つまたは複数の教育用文字列の総合スコアによって計算されるユーザの実証された流暢さのレベルに基づく。ある実装では、ユーザの「弱点」、例えば、ユーザが一貫して低いスコアを付けている場所をこの動的な対象とすることは、ユーザが言語での特定レベルの流暢さ、例えば、言語を人に教えるための既存の技術と比較して、かなり流暢であるレベルになるまでの時間の全体量を減少できる。
【0151】
ここで図7Cを参照すると、ある実装において、ユーザからの対話を受信するように構成された1つまたは複数の対話型オブジェクトを含む評価提示を示す操作720Aは、例えば対話型オブジェクト740Aおよび対話型オブジェクト740Bなどの様々な対話型オブジェクトを含み得る。対話型オブジェクト740Aおよび740Bは、同じタイプの対話型オブジェクトであっても、同じ提示上の異なるタイプの対話型オブジェクトであってもよい。例えば、対話型オブジェクトは、視覚的、聴覚的、触覚的、またはVR/AR環境、任意の装置、例えばクリック可能/タッチ可能なインタフェース、または発話コマンドに応答するインタフェース、あるいは拡張現実の対話に応答するインタフェースなどの任意の装置で提示される任意のオブジェクトであり得る。ある実装では、対話型オブジェクト740Aは、評価音声提示をユーザに提示するように構成された対話型オブジェクトを示す操作742を含むことができ、評価音声提示は、教育用文字列の特定部分の音声提示、および教育用文字列の特定部分のユーザの発音の音声提示のうちの1つまたは複数を含む。例えば、ある実装において、対話型オブジェクトとの対話は、例えば、スピーカ、ヘッドフォン、または装置50などの装置のディスプレイを介して、評価音声提示をトリガしてもよい。この音声提示は、対話型オブジェクトと関連付けられるベースラインの個々の言語構成要素の適切な発音、および対話型オブジェクトと関連付けられる個々の言語構成要素のユーザ発音のうちの1つまたは複数強調表示してもよい。音声提示は、視覚構成要素、例えば、対話型オブジェクトと関連付けられるベースラインの個々の言語構成要素の適切な発音、対話型オブジェクトと関連付けられる個々の言語構成要素のユーザの発音の各々の1つまたは複数の特性のチャートオーバーレイも含んでもよい。ある実装では、ユーザは、音声提示を、ユーザが望む回数だけ繰り返して、このまたは他の個々の言語構成要素と任意の順序で繰り返すことができる。
【0152】
再び図7Cを参照すると、ある実装において、操作742は、評価音声提示をユーザに提示するように構成された対話型オブジェクトを示す操作744を含んでよく、評価音声提示は、教育用文字列の特定部分と他の教育用文字列の他の関連する部分の発音におけるユーザのパフォーマンスの分析に基づいて増幅または減速され、教育用文字列の特定部分の発音の間違いを認識および修正するユーザの能力を強化する。例えば、ある実装では、前述の音声提示を1つまたは複数の要因に基づいて調整でき、例えば、1つまたは複数の様々な要因に応じて、音声提示の速度を落としたり、速度を上げたり、部分的に増幅したり、強調したり強調しないことができる。1つまたは複数の要因には、教育用文字列のセットに対するユーザのパフォーマンスを含んでよく、表示および評価される教育用文字列に類似している場合もあれば、ユーザが話したすべての教育用文字列のセットである場合もあり、あるいは特定の時間枠での教育用文字列のセットである場合もある。別の実装では、システムはユーザの間違いのパターンを検出し、ユーザの間違いのパターンに基づいて音声提示を調整することができ、例えば、ユーザが誤発音している個々の言語構成要素の減速バージョンが表示されることに肯定的に応答すると、将来誤発音される個々の言語構成要素の音が減速する可能性があり、その逆もあり得る。
【0153】
ここで図7Dを参照すると、ある実装において、操作720Aは、ユーザと関連付けられる装置のスクリーン上でユーザへの評価提示を表示する段階を示す操作752を含んでよく、評価提示には、ユーザにとって問題があると識別された特定の個々の言語構成要素ごとに対話型オブジェクトが含まれる。例えば、ある実装では、評価提示には、クリック可能な/タッチ可能なインタフェース、または口頭コマンドに応答するインタフェース、あるいは拡張現実の対話に応答するインタフェースなどの対話型オブジェクトが含まれる。ある実装では、対話型オブジェクトの1つとの対話により、ユーザにとって問題があると識別された特定の個々の言語構成要素ごとに対話型デモが表示される。別の実装では、対話型オブジェクトとの対話により、特定の個々の言語構成要素および/またはユーザの発話の分析を通じて問題があると判定された発音特性に焦点を当てた1つまたは複数のレッスンの新しいセットが開かれる。ある実装では、対話型オブジェクトとの対話により、ユーザは異なる形式でフィードバック、例えば、言語、可聴、色分け、視覚で、またはユーザが、個々の言語構成要素の発音を間違えている手法の視覚またはその他の1つまたは複数の表現を介して受け取ることができる。ある実装では、対話型オブジェクトとの対話により、ユーザはオプションでその個々の言語構成要素に関連するより多くの演習を練習できる。ある実装では、対話型オブジェクトとの対話により、個々の言語構成要素に関する情報が1つまたは複数の媒体で表示される。
【0154】
再び図7Dを参照すると、操作720Aが操作752を含む実装では、操作720Aは、ユーザが各対話型オブジェクトと直接対話することを可能にする段階を示す操作754をさらに含んでよく、ユーザに問題があると識別された少なくとも1つの特定の個々の言語構成要素との分離を通しておよびそれとの対象となる対話を通じて、ユーザが教育用文字列と関連付けられる言語での特定レベルの流暢さを達成する時間を短縮できるようにする。例えば、対話型オブジェクトとの対話により、特定の個々の言語構成要素、例えば、ユーザが苦労しているそれらの言語構成要素を、上記のように分離して対象とすることができる。この方法で、ユーザは、ユーザがまだ完全に習得していない特定の個々の言語構成要素にトレーニングの焦点を合わせる。これにより、特定の個々の言語構成要素もトレーニングするために、ユーザがトレーニングする必要のない個々の言語構成要素のトレーニングで無駄になる時間が短縮される。様々な実装において、これは、ユーザが教育用文字列と関連付けられる言語で特定レベルの流暢さを発達させるための時間を短縮できるという効果を持ち得る。
【0155】
ここで図8Aを参照すると、ある実装において、操作506は、1つまたは複数の個々の言語構成要素を1つまたは複数の個々の言語構成要素グループにグループ化する段階を示す操作802を含み得る。例えば、図10に示すように、ある実装では、個々の言語構成要素の音素は単語にグループ化される。代替実装では、再度図8Aを参照すると、1つまたは複数の個々の言語構成要素808は、音節、単語、句、および/または文のグループにグループ化されてもよい。再び図8Aを参照すると、ある実装において、操作802を含み得る操作506は、操作804も含んでよく、例えば、ピッチ、イントネーション、周波数、強勢、アクセント、タイミング、発話速度、ためらい、フィラー音、およびベースラインの個々の言語構成要素の音声データに対するチャンクの測定を通じて、1つまたは複数の個々の言語構成要素グループを分析する段階を示し、そして、操作806を含んでよく、例えば、評価提示の一部として分析された1つまたは複数の個々の言語構成要素グループの結果を含める段階を示す。
【0156】
ここで図8Bを参照すると、ある実装において、操作506は、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを1つまたは複数の個々の言語構成要素に分離する段階を示す操作820を含み得る。ある実装では、これは、教育用文字列音声サンプルデータのパターンマッチングを実行して、教育用文字列音声サンプルデータに存在する既知の個々の言語構成要素を見つけることによって行われる。しかし、他の実装では、教育用文字列音声サンプルデータを個々の言語構成要素に分離するための他の手法が使用されてもよい。ある実装では、操作820を含み得る操作506はまた、1つまたは複数の個々の言語構成要素のうちの少なくとも一部に対応する1つまたは複数のベースラインの個々の言語構成要素の取得する段階を示す操作822を含み得る。既に説明したように、ベースラインの個々の言語構成要素は、任意のソース、コーパス、またはコーパスのセットから取得できるが、そのまま使用するか、機械学習手法で修正するか、ソースの1つまたは複数の特徴に基づいて1つまたは複数の発音特性を平均化または加重平均化することにより、「ベースライン」の個々の言語構成要素を生成するように修正することができる。ある実装では、操作820および822を含み得る操作506は、1つまたは複数の個々の言語構成要素のうちの少なくとも1つの個々の言語構成要素を1つまたは複数のベースラインの個々の言語構成要素の対応するベースラインの個々の言語構成要素と比較する段階を示す操作824も含んでよく、これは、対応するベースラインの個々の言語構成要素に対する個々の言語構成要素の1つまたは複数の発音特性の違いをきめ細かく検出することで実現できる。
【0157】
図11、12、および13は、本明細書で既に説明したシステムの様々な実装を説明する。簡潔にするために、システムの操作のいくつかの部分は繰り返されず、特に明記されない限り、具体的に線引きされた、または内部的に矛盾する場合を除き、図5A~5Fおよび他の図に関して説明した方法と同様の方法で、図11図12、および図13に関して言及されていない詳細が機能する。ここで図11を参照すると、図11は、部分的に編集された少なくとも1つの教育用文字列を提供する段階を示す操作1102を含み得る操作1100を示している。例えば、図2A~2F、例えば図2Aは、様々な実装において部分的に編集された少なくとも1つの教育用文字列を提供するように構成され得る教育用文字列提供回路252を示す。ある実装において、副操作1102Aに示されるように、部分的に編集された教育用文字列は、部分的に編集された教育用文字列がユーザに提示される場合に部分的に編集された教育用文字列から編集された1つまたは複数の編集部分を含む。例えば、この方法を使用して、「私たちは皆____に乗ってモールに行った」など、言語の流暢さを向上させるために、ユーザに単語を編集する空白を埋めさせることができる。他の実装では、「私たちはすべて_から_に_をする」など、複数の編集部分であり得る。他の実装では、単語や文字の数についての手がかりも編集部分に同様に与えられてよく、例えば、編集部分が「ありがとう」の場合、編集文には「素敵な贈り物のために_ _」など、下線付きの空白が2つ表示される場合がある。別の例では、空白の数は、「アラナが栗に乗った_ _ __ _」など、欠落している文字の数を示す場合があり、不足している単語は「馬」である。ある実装では、これらの演習の1つの目的は、流暢さを正確な言語の発音とともに教えること、ユーザに追加の単語を話す柔軟性を与えること、さらに教育用プログラム全体を面白くするためにレッスンを分割することである。
【0158】
再び図11を参照すると、ある実装において、操作1100は、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階を示す操作1104を含み得る。例えば、図2A~2F、例えば図2Aは、様々な実装において、教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信するように構成され得る、教育用文字列音声サンプルデータ受信回路254を示す。ある実装では、副操作1104Aに示すように、教育用文字列は、1つまたは複数の編集部分を構成する単語の評価に関するユーザの発話に対応する1つまたは複数の対象文字列に関するユーザの発話を含み得る。例えば、上で説明したように、編集された教育用文字列が「私たち全員がモールに_乗って来た」である場合、ユーザは、「私たちは皆、車に乗ってモールに行った」、「私たちは手押し車に乗ってモールに乗った」などの文字列、または他の同様の語句を話す。上記の例の対象の文字列は、編集部分(例、「車」や「手押し車」など)を埋めるテキストであり、発話評価エンジンによってユーザが供給した文字列の一部として認識できる。
【0159】
再び図11を参照すると、ある実装において、操作1100は、1つまたは複数の編集部分を含む、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階を示す操作1106を含み得る。例えば、図2A~2F、例えば図2Aは、個々の言語構成要素分析回路256を示し、様々な実装において、1つまたは複数の編集部分を含む、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析するように構成され得る。ある実装では、副操作1106Aに示すように、分析段階には、既に説明したように、教育用文字列のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対して教育用文字列音声サンプルデータの少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定する段階が含まれ得る。他の実装では、副操作1106Aが存在する場合、操作1106は、少なくとも1つまたは複数の対象文字列の個々の言語構成要素の1つまたは複数の発音特性のさらなる測定により、1つまたは複数の対象文字列と1つまたは複数の編集部分との間の変化を判定する段階を示す副操作1106Bも含み得る。例えば、ある実装では、「車に乗ってモールに行きました」の前の例の「車」という単語で、編集された文字列は「車」であり、ユーザによるこの単語の発音は既に説明したように分析できる。様々な実装でユーザが異なる単語を選択すると、その単語が認識され、対応するベースラインの単語と比較される(例えば、ユーザが「自動車」または「馬」または「電話」と言った場合)。ある実装では、ユーザが選択した単語に基づいて、ユーザのスコアからポイントが差し引かれ得る。例えば、ある実装では、前の例では、「自動車」、「バン」、「トラック」、および「地下鉄」などの単語は、文がそれらの単語で意味をなすため、まだ完全なポイントを受け取る場合がある。「馬」や「手押し車」などの単語は、論理的には当てはまるが文脈に適していない可能性があるため、ポイントがわずかに控除される場合があり、「電話」などの単語は、例えば「私たちは皆、電話でショッピングモールに行きました」など、部分的に編集された教育用文字列に論理的に適合しないため、ポイントがかなり控除される。
【0160】
再び図11を参照すると、ある実装において、操作1100は、教育用文字列音声サンプルデータの品質測定値を提供する段階を示す操作1108を含み得る。例えば、図2A~2F、例えば図2Aは、評価提示提供回路258を示し、これは、様々な実装において、教育用文字列音声サンプルデータの品質測定値を提供するように構成され得る。ある実装では、副操作1108Aに示すように、教育用文字列音声サンプルデータの品質測定は、既に説明したように、1つまたは複数の対象文字列と1つまたは複数の編集部分との間の判定された変化に少なくとも部分的に基づいてもよい。様々な実施形態において、正しい単語または論理単語の選択間のバランスは、ユーザフィードバックに有用なユーザスコアに到達するために、様々な加重でその単語の正確な発音に対して加重されてもよい。様々な要素の加重は、ユーザの体験、言語の流暢さ、以前の教育用文字列でのユーザのパフォーマンス、ユーザに与えられている特定のレッスンの強調などの要因に応答して変化する場合がある。ある実装では、講師は、ユーザに対する講師のレッスン目標に従って、様々な要因の加重を手動で割り当てることができる。
【0161】
ここで図12を参照すると、図12は、少なくとも1つのオプション選択教育セット1202を提供する段階を示す操作1202を含み得る操作1200を示す。例えば、図2A~2F、例えば図2Aは、教育用文字列提供回路252を示し、これは、様々な実装において、少なくともオプション選択教育セットを提供するように構成されてよく、それ自体は、本明細書でさらに説明されるように、様々な教育用文字列を含み得る。ある実装では、副操作1202Aに示すように、オプション選択教育セットは、2つ以上の関連オプション選択教育用文字列のセットを含み、2つ以上の関連オプション選択教育用文字列のセットの優先オプション選択教育用文字列は、2つ以上の関連オプション選択教育用文字列のセットの他のオプション選択教育用文字列よりも正確な教育用文字列である。例えば、この方法は、発音と言語スキルを教えると同時に、ユーザの言語の流暢さを向上させるために使用できる。様々な実装において、オプション選択教育セットは様々な数のオプション選択教育用文字列を有し、それらの文字列は特定のユーザが操作している困難なレベルに基づいて密接に関連するか、または遠く関連し得る。例えば、ある実装では、ユーザがより困難なレベルで操作している場合、オプション選択教育セットは、ユーザが選択できるオプション選択教育用文字列がより多く有することができる。別の実装では、ユーザがより困難なレベルで操作している場合、オプション選択教育セットは、密接に関連するオプション選択教育用文字列を有することができ、例えば、ほんの数語だけ離れている、または類似の意味を持っている、あるいは微妙な文法的または論理的なエラーがあるなどである。他の実装では、すべてのオプション選択教育用文字列が「正確な」場合があり、ユーザは「最も正確な」オプションを選択する必要がある場合がある。オプション選択教育セットは、様々な方法で表示できるが、必ずしも装置で表示する必要はない。ある実装では、オプション選択教育セットのオプション選択教育用文字列はすべて一度に表示される。別の実装では、一度に1つのオプション選択教育用文字列がユーザに表示され、他の実装では様々な数のオプション選択教育用文字列が一度に表示されてよく、また、オプション選択教育セットのメンバー間でユーザが前後に切り替えることができる。
【0162】
再び図12を参照すると、ある実装において、操作1200は、2つ以上の関連オプション選択教育用文字列のセットからユーザが選択した教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階を示す操作1204を含み得る。例えば、図2A~2F、例えば図2Aは、教育用文字列音声サンプルデータ受信回路254を示し、様々な実装において、2つ以上の関連オプション選択育用文字列のセットからユーザが選択した教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信するように構成され得る。ある実装では、ユーザは選択されたオプション選択教育用文字列のみを話すが、他の実装では、ユーザはオプション選択教育用文字列をより多く話すことができる。
【0163】
再び図12を参照すると、ある実装において、操作1200は、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階を示す操作1206を含み得る。例えば、図2A~2F、例えば図2Aは、様々な実装において、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析するように構成され得る個々の言語構成要素分析回路256を示す。ある実装では、副操作1206Aに示すように、分析する段階は、既に説明したように、教育用文字列のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対して少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定する段階を含み得る。他の実装では、副操作1206Aが存在する場合、操作1206は副操作1206Bも含んでよく、ユーザが選択した教育用文字列が優先オプション選択教育用文字列と一致するかどうかを判定する段階、およびユーザが選択した教育用文字列の個々の言語構成要素の1つまたは複数の発音特性のさらなる測定を示す。例えば、ある実装では、ユーザが選択した教育用文字列が正確な文字列であるか、「最も正確な」文字列であるかが判定される。様々な実装では、ユーザが選択した教育用文字列が正確なものであるかどうか、そうでない場合は、2それが番目に良い回答、3番目に良い回答などであるかどうかに基づいてポイントスコアを割り当てることができる。ある実装では、使用するスコアリングシステムのもとで、正解だけがポイントに値する。別の実装では、質問の複雑さ、正しい答えを選択する難しさ、およびユーザのスキルレベル/目標に応じて、オプション選択教育セットの他の回答のいくつかに対してポイントが与えられる。
【0164】
再び図12を参照すると、ある実装において、操作1200は、教育用文字列音声サンプルデータの品質測定値を提供する段階を示す操作1208を含み得る。例えば、図2A~2F、例えば図2Aは、評価提示提供回路258を示し、これは、様々な実装において、教育用文字列音声サンプルデータの品質測定値を提供するように構成され得る。ある実装では、副操作1208Aに示されるように、教育用文字列音声サンプルデータの品質測定は、測定された1つまたは複数の発音特性と、ユーザが選択した教育用文字列と優先オプション選択教育用文字列との判定された一致に少なくとも部分的に基づいてもよい。様々な実装では、ユーザのフィードバックに役立つユーザスコアに到達するために、正確なオプションまたはより正確なオプションの1つを選択するバランスを、様々な加重でそのオプションの正確な発音に対して加重することができる。様々な要素の加重は、ユーザの体験、言語の流暢さ、以前の教育用文字列でのユーザのパフォーマンス、ユーザに与えられている特定のレッスンの強調などの要因に応答して変化する場合がある。ある実装では、講師は、ユーザに対する講師のレッスン目標に従って、様々な要因の加重を手動で割り当てることができる。ある実装では、ユーザが不正確なオプションを選択した場合、ユーザは同じオプション選択教育セットを使用して演習を繰り返し、様々な実装では、すべてのオプションが同じであるか、選択された不正確なオプションが異なる教育用文字列と交換され得る。
【0165】
ここで図13を参照すると、図13は操作1300を示し、これは、プロンプト文字列を聴覚的に、視覚的に、またはそれらの組み合わせで提供する段階を示す操作1302を含み得る。上記のように、本願を通してすべての場合において、「提供する」という用語は、あらゆる種類の感覚的提供、例えば、可聴、視覚、触覚、または他の感覚的関与を含むことを意図し、聴覚的および視覚的提供は、図13で具体的に示されている。これは、例示のみを目的とするものであり、提供する媒体として機能する特定の感覚刺激を特に呼び出さない、用語、提供する他のインスタンス化を制限するものと見なされるべきではない。むしろ、読者の理解を容易にし、利便性を高めるために、ここで用語を明示的に追加している。操作1302に戻ると、例えば図2A~2F、例えば図2Aは、様々な実装において、プロンプト文字列を、聴覚的に、視覚的に、またはそれらの組み合わせで提供するように構成できる。ある実装において、副操作1302Aに示されるように、プロンプト文字列は、プロンプト文字列に応答する対応するベースライン応答文字列に関連付けられていてもよい。様々な実装では、対応するベースライン応答文字列が複数存在する場合がある。例えば、ある実装では、プロンプト文字列が「あなたは、転んで足を骨折したばかりの人をどこに連れて行きますか」である場合、対応する唯一のベースライン応答文字列は、「病院」または2つの応答文字列、例えば、「病院」および「緊急治療室」であり得る。別の実装では、プロンプト文字列が「ヒマワリの種を一度に何個食べることができるか」である場合、様々な数字を含む対応するベースライン応答文字列が多数存在する場合がある。ある実装では、プロンプト文字列は必要な回数だけユーザに繰り返され得る。別の実装では、プロンプト文字列は、まず聴覚的に、次に視覚的に、またはその逆に、あるいは同時に、またはそれらの任意の組み合わせで提示されてもよい。
【0166】
再び図13を参照すると、ある実装において、操作1300は、プロンプト文字列に対するユーザの応答文字列に対応する教育用文字列音声サンプルデータを受信する段階を示す操作1304を含み得る。例えば、図2A~2F、例えば図2Aは、様々な実装で、プロンプト文字列に対するユーザの応答文字列に対応する教育用文字列音声サンプルデータを受信するように構成され得る、教育用文字列音声サンプルデータ受信回路254を示している。ある実装では、ユーザはまずプロンプト文字列を繰り返してから、応答文字列で応答するか、応答文字列のみを話すことができる。ある実装では、ユーザは発話またはその他の入力エントリ(キーボードやタッチスクリーンなど)を介して、プロンプト文字列に関するフォローアップの質問をすることができる。他の実装では、プロンプト文字列は、特定の回答のない自由回答形式の質問である場合があり、例えば、「自由意志の性質は何か、そのようなものが存在するかどうかを判定することは可能である」であり、実装でスコアリングされるのは特定の応答ではなく発話である。
【0167】
再び図13を参照すると、ある実装において、操作1300は、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階を示す操作1306を含み得る。例えば、図2A~2F、例えば図2Aは、様々な実装において、教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析するように構成され得る個々の言語構成要素分析回路256を示す。ある実装では、副操作1306Aに示すように、分析する段階は、既に説明したように、ベースライン応答文字列の対応する個々の言語構成要素の対応する1つまたは複数の発音特性に対して応答文字列の少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定する段階を含み得る。他の実装では、副操作1306Aが存在する場合、操作1306は、応答文字列がプロンプト文字列に応答するかどうかを判定する段階を示す副操作1306Bも含むことができる。例えば、ある実装では、ユーザが選択した応答文字列がプロンプト文字列に応答するかどうかを判定し、これは、様々な実装では、2部テストである場合があり、例えば、プロンプト文字列に応答する応答文字列であり、応答文字列が正解であり、例えば、プロンプト文字列が「空の色」の場合、「緑」は構文的には正解であるが、論理的には正解ではないため、それに応じてスコアを付けることができる。他の実装では、この区別は行われない場合があり、論理的に不正確な答えは、構文的に不正確な答えと同じスコアが付けられる場合がある。他の実装では、「正確な」解答がない場合もあれば、例えば、「100未満の素数に名前を付ける」などの正解のセットがある場合もある。
【0168】
再び図13を参照すると、ある実装において、操作1300は、教育用文字列音声サンプルデータの品質測定値を提供する段階を示す操作1308を含み得る。例えば、図2A~2F、例えば図2Aは、評価提示提供回路258を示し、これは、様々な実装において、教育用文字列音声サンプルデータの品質測定値を提供するように構成され得る。ある実装では、副操作1308Aに示すように、教育用文字列音声サンプルデータの品質測定は、測定された応答文字列の1つまたは複数の発音特性と、プロンプト文字列に対する応答文字列の判定された応答性とに少なくとも部分的に基づいてよい。様々な実装では、ユーザフィードバックに役立つユーザスコアに到達するために、論理的および/または構文的に正確な応答文字列を提供する段階のバランスを、応答文字列の正確な発音に対して加重することができる。様々な要素の加重は、ユーザの体験、言語の流暢さ、以前の教育用文字列でのユーザのパフォーマンス、ユーザに与えられている特定のレッスンの強調などの要因に応答して変化する場合がある。ある実装では、講師は、ユーザに対する講師のレッスン目標に従って、様々な要因の加重を手動で割り当てることができる。
【0169】
前述の例は、例示のみを目的とするものであり、ここでの例の省略は、意図的または意図的に否認する主題として解釈されるべきではない。本明細書に記載された本発明の範囲は、本願の最後の次の特許請求の範囲によってのみ定義される。
【0170】
V.様々な代替実装と制限のない文言
【0171】
当業者は、装置および/またはプロセスおよび/またはシステムを実装し、その後、エンジニアリングおよび/または他の手法を使用して、そのような実装された装置および/またはプロセスおよび/またはシステムをより包括的な装置および/またはプロセスおよび/またはシステムに統合することが当技術分野では一般的であることを認識するであろう。すなわち、本明細書に記載の装置および/またはプロセスおよび/またはシステムの少なくとも一部は、妥当な量の実験により他の装置および/またはプロセスおよび/またはシステムに統合することができる。当業者は、そのような他の装置および/またはプロセスおよび/またはシステムの例は、コンテキストおよび用途として、(a)航空輸送(例、飛行機、ロケット、ヘリコプターなど)、(b)地上輸送(例、車、トラック、機関車、戦車、装甲兵員輸送車など)、(c)建物(例、家、倉庫、オフィスなど)、(d)電化製品(例、冷蔵庫、洗濯機、乾燥機など)、(e)通信システム(例、ネットワークシステム、電話システム、Voice over IPシステムなど)、(f)ビジネスエンティティ(例、Comcast Cable、Qwest、Southwestern Bellなどのインターネットサービスプロバイダ(ISP)エンティティなど)、または(g)有線/無線サービスエンティティ(例、スプリント、シンギュラー、ネクステルなど)などの装置および/またはプロセスおよび/またはシステムすべてまたは一部を含み得ることを認識するであろう。
【0172】
特定のケースでは、構成要素が領域外にある場合でも、システムまたは方法の使用が領域で発生する場合がある。例えば、分散コンピューティングのコンテキストでは、システムの一部が領域外にある場合でも、分散コンピューティングシステムの使用が領域内で発生する場合がある(例えば、領域外にあるリレー、サーバ、プロセッサ、信号伝達媒体、送信コンピュータ、受信コンピュータなど)。
【0173】
システムまたは方法のセールは、システムまたは方法の構成要素が領域外に配置および/または使用されている場合でも、同様に領域で発生する可能性がある。さらに、ある領域で方法を実行するためのシステムの少なくとも一部の実装は、別の領域でのシステムの使用を妨げない。
【0174】
一般的な意味で、当業者は、本明細書で説明される様々な実施形態が、米国特許法の下で特許性のある主題に限定される、ハードウェア、ソフトウェア、ファームウェア、および/またはそれらの実質的に任意の組み合わせなどの幅広い電気部品を有する様々なタイプの電気機械システムによって、個々におよび/または集合的に実装され得ることを認識するであろう。101;そして、剛体、バネまたはねじれ体、油圧、電磁作動装置、および/または事実上それらの任意の組み合わせなど、機械的な力または動きを与え得る広範囲の構成要素である。結果として、本明細書で使用される「電気機械システム」は、トランスデューサ(例えば、アクチュエータ、モーター、圧電結晶、微小電気機械システム(MEMS)など)と操作可能に結合された電気回路、少なくとも1つの離散電気回路を有した電気回路、少なくとも1つの集積回路を有した電気回路、少なくとも1つの特定用途向け集積回路を有した電気回路、コンピュータプログラムによって構成された汎用コンピューティング装置を形成する電気回路(例:本明細書に記載のプロセスおよび/または装置を少なくとも部分的に実行するコンピュータプログラムによって構成された汎用コンピュータ、または本明細書に記載のプロセスおよび/または装置を少なくとも部分的に実行するコンピュータプログラムによって構成されたマイクロプロセッサ)、メモリ装置を形成する電気回路(例えば、メモリの形式(例えば、ランダムアクセス、フラッシュ、読み取り専用など))、通信装置を形成する電気回路(例えば、モデム、通信スイッチ、光電気機器など)、および/または、光学または他のアナログ(例えば、グラフェンベースの回路)などの任意の非電気アナログを含むがこれらに限定されない。当業者は、電気機械システムの例は、様々な家庭用電化製品システム、医療機器、および電動輸送システム、工場自動化システム、セキュリティシステム、通信/コンピューティングシステムなどの他のシステムが含まれるが、これらに限定されないことも理解するであろう。当業者は、本明細書で使用される電気機械は、文脈がそうでないことを示す場合を除き、電気的および機械的作動の両方を有するシステムに必ずしも限定されないことを認識するであろう。
【0175】
一般的な意味で、当業者は、広範囲のハードウェア、ソフトウェア、ファームウェア、および/またはそれらの任意の組み合わせによって個々におよび/または集合的に実装できる、本明細書に記載の様々な態様は、様々な種類の「電気回路」で構成されていると見なすことができることを認識するであろう。したがって、本明細書で使用する「電気回路」には、少なくとも1つの離散電気回路を有する電気回路、少なくとも1つの集積回路を有する電気回路、少なくとも1つの特定用途向け集積回路を有する電気回路、コンピュータプログラムによって構成された汎用コンピューティング装置を形成する電気回路(例えば、本明細書に記載のプロセスおよび/または装置を少なくとも部分的に実行するコンピュータプログラムによって構成された汎用コンピュータ、または本明細書で説明するプロセスおよび/または装置を少なくとも部分的に実行するコンピュータプログラムによって構成されたマイクロプロセッサ)、メモリ装置を形成する電気回路(例えば、メモリの形態(例えば、ランダムアクセス、フラッシュ、読み取り専用など))、および/または通信装置を形成する電気回路(例えば、モデム、通信スイッチ、光電気機器など)を含むが、これらに限定されない。当業者は、本明細書に記載されている主題がアナログまたはデジタル方式あるいはそれらの何らかの組み合わせで実装され得ることを認識するであろう。
【0176】
当業者は、本明細書に記載の装置および/またはプロセスの少なくとも一部をデータ処理システムに統合できることを認識するであろう。当業者は、データ処理システムが一般にシステムユニットハウジング、ビデオ表示装置、揮発性または不揮発性メモリなどのメモリ、マイクロプロセッサまたはデジタル信号プロセッサなどのプロセッサ、オペレーティングシステムなどの計算エンティティ、ドライバ、グラフィカルユーザインタフェース、およびアプリケーションプログラム、1つまたは複数の対話装置(タッチパッド、タッチスクリーン、アンテナなど)、および/またはフィードバックループと制御モーターを含む制御システム(例えば、位置および/または速度を感知するためのフィードバック、構成要素および/または量を移動および/または調整するための制御モーター)のうちの1つまたは複数を含むことを認識するであろう。データ処理システムは、データコンピューティング/通信システムおよび/またはネットワークコンピューティング/通信システムに一般的に見られるものなど、適切な市販の構成要素を利用して実装できる。
【0177】
本願の目的のために、「クラウド」コンピューティングは、クラウドコンピューティングの文献に記載されているように理解される場合がある。例えば、クラウドコンピューティングは、計算能力および/または記憶容量をサービスとして配信するための方法および/またはシステムであり得る。「クラウド」とは、クライアント、アプリケーション、プラットフォーム、インフラストラクチャ、および/またはサーバのうちの1つまたは複数を含むがこれらに限定されない、計算および/または記憶容量の配信を提供または支援する1つまたは複数のハードウェアおよび/またはソフトウェア構成要素を指す。クラウドは、クライアント、アプリケーション、プラットフォーム、インフラストラクチャ、および/またはサーバと関連付けられるハードウェアおよび/またはソフトウェアのいずれかを指す場合がある。例えば、クラウドおよびクラウドコンピューティングは、コンピュータ、プロセッサ、記憶媒体、ルーター、スイッチ、モデム、仮想機械(例えば、仮想サーバ)、データセンター、オペレーティングシステム、ミドルウェア、ファームウェア、ハードウェアバックエンド、ソフトウェアバックエンド、および/またはソフトウェアアプリケーションのうちの1つまたは複数指す場合がある。クラウドとは、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、および/またはコミュニティクラウドを指す場合がある。クラウドは、構成可能なコンピューティングリソースの共有プールであり、パブリック、プライベート、セミプライベート、分散可能、スケーラブル、フレキシブル、一時的、仮想、および/または物理的であり得る。クラウドまたはクラウドサービスは、1つまたは複数のタイプのネットワーク、例えば、モバイル通信ネットワーク、インターネットなどで配信できる。
【0178】
本願で使用されているように、クラウドまたはクラウドサービスは、サービスとしてのインフラストラクチャ(「IaaS」)、サービスとしてのプラットフォーム(「PaaS」)、サービスとしてのソフトウェア(「SaaS」)、および/またはサービスとしてデスクトップ(「DaaS」)のうちの1つまたは複数を含み得る。非排他的な例として、IaaSには、例えば、1つまたは複数の仮想サーバのインスタンス化が含まれてよく、仮想サーバおよび/または記憶センターを開始、停止、アクセス、および/または構成することができる(例えば、1つまたは複数のプロセッサ、記憶スペース、および/またはネットワークリソースをオンデマンドで提供する、例えば、EMCおよびラックスペース)。PaaSには、例えば、インフラストラクチャ上でホストされる1つまたは複数のソフトウェアおよび/または開発ツール(例えば、コンピューティングプラットフォームおよび/またはクライアントがソフトウェアインタフェースとアプリケーションを作成できるソリューションスタック、例えばMicrosoft Azure)が含まれ得る。SaaSには、例えば、サービスプロバイダーによってホストされ、ネットワークを介してアクセス可能なソフトウェアが含まれ得る(例えば、アプリケーションのソフトウェアおよび/またはそのソフトウェアアプリケーションと関連付けられるデータは、Google Apps、SalesForceなどのネットワーク上に保持され得る)。DaaSには、例えば、ネットワーク経由でユーザにデスクトップ、アプリケーション、データ、および/またはサービスを提供する段階が含まれ得る(例えば、マルチアプリケーションフレームワーク、フレームワーク内のアプリケーション、アプリケーションと関連付けられるデータ、および/またはネットワーク上のアプリケーションやデータに関連するサービス、例:Citrixを提供する)。上記は、本願において「クラウド」または「クラウドコンピューティング」と呼ばれるシステムおよび/または方法のタイプの例示であることを意図しており、完全または網羅的と見なされるべきではない。
【0179】
当業者は、本明細書に記載の構成要素(例えば、操作)、装置、オブジェクト、およびそれらに付随する説明が、概念を明確にするために例として使用され、様々な構成変更が企図されることを認識する。結果として、本明細書で使用されるように、記載された特定の例および付随する説明は、より一般的なクラスを表すことを意図している。一般に、特定の例の使用は、そのクラスを表すことを意図しており、特定の構成要素(例えば、操作など)、装置、およびオブジェクトの非包含は限定的に解釈されるべきではない。
【0180】
本明細書で説明される主題は、複数の異なる他の構成要素内に含まれる、またはそれらに接続される複数の異なる構成要素を時折示す。そのような図示されたアーキテクチャは単なる例であり、実際、同じ機能を達成する他の多くのアーキテクチャを実装できることを理解されたい。概念的な意味では、同じ機能を達成するための構成要素の配置は、所望の機能が達成されるように効果的に「関連付けられる」。したがって、特定の機能を達成するために本明細書で組み合わされた任意の2つの構成要素は、アーキテクチャまたは中間構成要素に関係なく、望ましい「機能」が達成されるように互いに「関連付けられている」と見なすことができる。同様に、そのように関連付けられる2つの構成要素は、互いに「操作可能に接続」または「操作可能に結合されて」、所望の機能を達成し、関連する2つの構成要素は相互に「操作可能に結合して」、所望の機能を達成すると見なすことができる。操作可能に結合可能な特定の例には、物理的に嵌合可能および/または物理的に対話する構成要素、および/または無線で対話可能な、および/または無線で対話する構成要素、および/または論理的に対話する、および/または論理的に対話可能な構成要素が含まれるが、これらに限定されない。
【0181】
正式な概説の見出しが本願に存在する限り、概説の見出しは提示を目的とするものであり、様々な種類の主題が出願全体で説明される場合があることを理解されたい(例えば、装置/構造は、プロセス/操作の見出しの下で説明される場合があり、および/またはプロセス/構造は、構造/プロセスの見出しの下で説明される場合があり、および/または単一のトピックの説明は、2つ以上のトピック見出しにまたがる場合がある)。したがって、本願での正式な概説見出しの使用は、提示を目的とするものであり、決して限定することを意図したものではない。
【0182】
本願を通して、括弧、略語「例」、またはその両方を使用して、例とリストを提示する。特に明記しない限り、これらの例とリストは単なる例示であり、網羅的ではない。ほとんどの場合、すべての例とすべての組み合わせを記載することは禁止される。したがって、このような用語の範囲を制限するのではなく、請求項の用語を理解することに焦点を合わせて、より小さく、例示的なリストおよび例を使用する。
【0183】
本明細書における実質的に任意の複数および/または単数用語の使用に関して、当業者は、文脈および/または用途に適切なように、複数から単数へ、および/または単数から複数へと変換することができる。本明細書では、明確にするために、様々な単数形/複数形の順列を明示的に述べていない。
【0184】
当業者は、本明細書に記載の構成要素(例えば、操作)、装置、オブジェクト、およびそれらに付随する説明が、概念を明確にするために例として使用され、様々な構成変更が企図されることを認識する。結果として、本明細書で使用されるように、記載された特定の例および付随する説明は、より一般的なクラスを表すことを意図している。一般に、特定の例の使用は、そのクラスを表すことを意図しており、特定の構成要素(例えば、操作など)、装置、およびオブジェクトの非包含は限定的に解釈されるべきではない。
【0185】
本明細書では、例えば図1および他の場所で、1人または複数のユーザを1つの説明される図として示すことができるが、当業者は、1人または複数のユーザが、文脈で別段の指示がない限り、1人または複数の人間のユーザ、ロボットユーザ(例えば、計算エンティティ)、および/または実質的にそれらの任意の組み合わせ(例えば、ユーザは1つまたは複数のロボットエージェントによって支援され得る)を表してもよいことを理解する。当業者は、一般に、「送信者」についても同じことを言うことができ、および/または、そのような他のエンティティ指向の用語は、文脈で別段の指示がない限り、本明細書で使用されることを理解するだろう。
【0186】
場合によっては、本明細書では、1つまたは複数の構成要素が「するように構成された」、「により構成された」、「するように構成可能」、「するように操作可能/操作」、「するように適合された/適合可能」、「することが可能」、「するように準拠可能/準拠された」などと呼ばれる場合がある。当業者は、そのような用語(例えば「するように構成された」)は、文脈がそうでないことを必要としない限り、一般にアクティブ状態構成要素および/または非アクティブ状態構成要素および/またはスタンバイ状態構成要素を包含することを認識する。
【0187】
VI.特許請求される主題の序文
【0188】
本明細書で説明する本主題の特定の態様を示して説明したが、本明細書での教示に基づいて、本明細書で説明した主題およびそのより広範な態様から逸脱することなく変更および修正を行うことができ、したがって、添付の特許請求の範囲は、本明細書に記載の主題の真の趣旨および範囲内にあるすべてのそのような変更および修正をその範囲内に包含するものとすることが当業者には明らかであろう。一般に、本明細書および特に添付の特許請求の範囲(例えば、添付の特許請求の範囲の本文)で使用される用語は、一般に「公開」用語(例えば、「含んでいる」という用語は「含んでいるが限定されない」と解釈されるべきであり、「有する」という用語は「少なくとも有する」と解釈されるべきであり、「含む」という用語は「含むが限定されない」と解釈されるべきである、など)として意図されることは当業者によって理解される。
【0189】
さらに、特定の数の導入された請求項の記載が意図される場合、そのような意図は請求項に明示的に記載され、そのような記載がない場合、そのような意図は存在しないことを当業者はさらに理解するであろう。例えば、理解を助けるために、以下の添付の請求項には、請求項の記載を導入するために「少なくとも1つ」および「1つまたは複数」の導入句の使用が含まれる場合がある。しかし、そのような語句の使用は、同じ請求項には、「1つまたは複数」または「少なくとも1つ」の導入語句と「a」または「an」などの不定冠詞が含まれる(例えば、「a」および/または「an」は通常、「少なくとも1つ」または「1つまたは複数」を意味すると解釈されるべきである)場合でも、不定冠詞「a」または「an」による請求項の記載の導入が、そのような導入された請求項の記載を含む特定の請求項を、そのような記載を1つだけ含む請求項に限定することを意味すると解釈されるべきではなく、請求項の記載を導入するために使用される定冠詞の使用についても同じことが当てはまる。さらに、特定の数の導入された請求項の記載が明示的に記載されている場合でも、当業者は、そのような記載は通常、少なくとも記載された数を意味すると解釈されるべきであることを認識するであろう(例えば、他の修飾子なしの「2つの記載」の裸の記載は、通常、少なくとも2つの記載、または2つ以上の記載を意味する)。
【0190】
さらに、「A、B、およびCなどのうちの少なくとも1つ」に類似した規則が使用される場合、一般に、そのような構造は、当業者が規則を理解するという意味で意図される(例えば、「A、BおよびCのうちの少なくとも1つを有するシステム」には、Aのみ、Bのみ、Cのみ、AとBが一緒、AとCが一緒、BとCが一緒、および/またはA、BとCが一緒などを有するシステムが含まれるが、これらに限定されない)。「A、B、またはCなどのうちの少なくとも1つ」に類似した規則が使用される場合、一般に、そのような構造は、当業者が規則を理解するという意味で意図される(例えば、A、B、またはCのうちの少なくとも1つを有するシステムには、Aのみ、Bのみ、Cのみ、AとBが一緒、AとCが一緒、BとCが一緒、および/または、A、BおよびCが一緒などを有するシステムが含まれるが、これらに限定されない)。それは、通常、説明、特許請求の範囲、図面のいずれにせよ、2つ以上の代替用語を表す離接語および/または句は、用語の1つ、用語のいずれか、または文脈で別段の指示がない限り、両方の用語を含む可能性を考慮すると理解されるべきであることが、当業者によってさらに理解されるであろう。例えば、語句「AまたはB」は、通常「A」または「B」あるいは「AおよびB」の可能性を含むと理解される。
【0191】
添付の特許請求の範囲に関して、当業者は、そこに記載された操作が一般に任意の順序で実行され得ることを理解するであろう。また、様々な操作フローがシーケンスで提示されるが、様々な操作は、例示された順序以外の順序で実行されてもよく、または同時に実行されてもよいことを理解されたい。そのような代替の順序の例には、文脈で別段の指示がない限り、重複、交互、中断、並べ替え、増分、準備、補足、同時、逆、またはその他の変形順序が含まれ得る。さらに、「~に反応する」、「~に関連する」、または他の過去形の形容詞などの用語は、文脈で別段の指示がない限り、一般にそのような変形を除外することを意図していない。
【0192】
本願は、1つのメーカーまたは商人によって採用され、その製品を他の製品と識別および/または区別するために使用される1つまたは複数の商標、例えば単語、文字、記号、または装置を指す場合がある。本明細書で使用される商標名は、それらのアイデンティティを明確にし、それらを一般的な記述名詞と区別するような言語で記載され、固定された明確な意味を持ち、または、すべてではないにしても多くの場合、商標でカバーされていない用語を使用した他の特定の識別を伴う。さらに、本書で使用されている商標名は、文献でよく知られ、定義されている意味を持っているか、その意味を推測するために1つまたは複数の企業秘密の知識が必要な製品または化合物を指さない。本願で指されているすべての商標はそれぞれの所有者の財産であり、本願での1つまたは複数の商標の出現は、1つまたは複数の商標の有効性を損なうことはない。本願に表示される登録済みまたは未登録のすべての商標には、そのような商標記号が商標の横に明示的に表示されていない場合でも、適切な商標記号が含まれていると想定される(例:サークルRまたは括弧付きの大文字(例:[商標名]))。製品またはプロセスを指すために商標が記述的な方法で使用されている限り、その商標は、本特許出願の提出日の対応する製品またはプロセスを表すと解釈されるべきである。
【0193】
本願を通して、「ある実施形態において」、「1つの実施形態において」、「いくつかの実施形態において」、「複数の実施形態において」、「少なくとも1つの実施形態において」、「様々な実施形態において」などの用語が使用され得る。これらの用語の各々、およびそのようなすべての同様の用語は、特に明記しない限り、「少なくとも1つの実施形態おいて、必ずしもではないがおそらくすべての実施形態おいて」と解釈されるべきである。具体的には、特に明記しない限り、これらのような語句の意図は、本発明の実装の非排他的かつ非限定的な例を提供することである。1つ、いくつか、または多くの実施形態が1つまたは複数のものを含むか、1つまたは複数の特徴を有しているという単なる説明は、すべての実施形態が1つまたは複数のものを含むか、1つまたは複数の特徴を有することを意味しないが、そのような実施形態が存在する必要があることも意味しない。それは例の単なる指標であり、そうであると明示的に述べられていない限り、そうでないと解釈されるべきではない。
【0194】
本願を通して、「ある実装において」、「1つの実装において」、「いくつかの実装において」、「複数の実装において」、「少なくとも1つの実装において」、「様々な実装において」などの用語が、使用され得る。これらの各用語、およびそのようなすべての同様の用語は、特に明記されていない限り、「少なくとも1つの実装において、必ずしもではないが、おそらくすべての実装において」と解釈されるべきである。具体的には、特に明記しない限り、これらのような語句の意図は、本発明の実装の非排他的かつ非限定的な例を提供することである。1つ、いくつか、または多くの実装が1つまたは複数のものを含むか、1つまたは複数の特徴を有しているという単なる説明は、すべての実装が1つまたは複数のものを含むか、1つまたは複数の特徴を有していることを意味しないが、そのような実装が存在する必要があることも意味しない。それは例の単なる指標であり、そうであると明示的に述べられていない限り、そうでないと解釈されるべきではない。
【0195】
当業者は、前述の特定の例示的なプロセスおよび/または装置および/または技術が、本明細書で提出された特許請求の範囲および/または本願の他の場所など、本明細書の他の場所で教示されるより一般的なプロセスおよび/または装置および/または技術を表すことが理解されるであろう。
[項目1]
1つまたは複数の発話言語スキルを教育および/または評価するように構成された装置であって、前記装置は、
装置入力構成要素および装置出力構成要素のうちの1つまたは複数を有する装置インタフェース構成要素と、
メモリと、
前記メモリに操作可能に結合され、前記装置インタフェース構成要素との間でデータをやり取りするように構成されたプロセッサと
を備え、前記プロセッサは、
ユーザが読む1つまたは複数の教育用文字列を実装するように構成された教育用文字列提供回路と、
前記1つまたは複数の教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを、前記ユーザから前記装置入力構成要素を介して受信するように構成された教育用文字列音声サンプルデータ受信回路と、
ベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対する少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性の測定を通じて、前記教育用文字列音声サンプルデータを分析するように構成された個々の言語構成要素分析回路と、
前記装置出力構成要素上で前記ユーザに評価提示を提供するように構成された評価提示提供回路と、
を含むように構成された1つまたは複数の回路を有し、前記評価提示は、前記1つまたは複数の個々の言語構成要素の各々について、分析された前記教育用文字列音声サンプルデータの前記1つまたは複数の個々の言語構成要素に基づく前記教育用文字列音声サンプルデータの評価を含む、装置。
[項目2]
前記教育用文字列提供回路は、
ユーザが読む1つまたは複数の教育用文字列を前記ユーザに提供するように構成された教育用文字列提供回路
を含む、項目1に記載の装置。
[項目3]
前記教育用文字列提供回路は、
前記ユーザが読む1つまたは複数の教育用文字列を、前記装置インタフェース構成要素の前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列提供回路
を含む、項目2に記載の装置。
[項目4]
前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々の評価を含む前記教育用文字列音声サンプルデータの前記評価を収集するように構成された教育用文字列音声サンプルデータ評価収集回路
をさらに備える、項目1から3のいずれか一項に記載の装置。
[項目5]
前記装置は、収集された前記教育用文字列音声サンプルデータの前記評価に少なくとも部分的に基づいて1つまたは複数のさらなる教育用文字列を判定するように構成されたさらなる教育用文字列判定回路をさらに備え、前記1つまたは複数のさらなる教育用文字列は、前記装置による分析および評価のために前記ユーザからキャプチャされた場合に前記ユーザの発話言語スキルを向上させるために計算される、項目4に記載の装置。
[項目6]
前記教育用文字列提供回路は、
前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の視覚表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列視覚提供回路と、
前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の音声表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列音声提供回路と、
を含む、項目3から5のいずれか一項に記載の装置。
[項目7]
前記教育用文字列提供回路は、
前記装置入力構成要素を介して前記ユーザと対話するように構成された、前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の対話型視覚表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列対話型視覚提供回路
を含む、項目3から6のいずれか一項に記載の装置。
[項目8]
前記1つまたは複数の教育用文字列の前記対話型視覚表現とのユーザの対話に応答して、前記ユーザが読むことになっている前記1つまたは複数の教育用文字列の音声表現を、前記装置出力構成要素を介して前記ユーザに提供するように構成された教育用文字列応答音声提供回路
をさらに備える、項目7に記載の装置。
[項目9]
前記評価提示は、前記1つまたは複数の教育用文字列に関する前記ユーザの発話の総合スコアを含む、項目1から8のいずれか一項に記載の装置。
[項目10]
前記装置出力構成要素はディスプレイおよびスピーカを含み、前記評価提示提供回路はさらに、
対応する1つまたは複数のベースラインの個々の言語構成要素に対して分析された前記1つまたは複数の個々の言語構成要素の各々に関する前記ユーザの発話の前記ユーザへの視覚フィードバックを前記ディスプレイ上に提示する視覚的提示提供回路と、
特定の個々の言語構成要素との対話に応答して、前記特定の個々の言語構成要素に関する前記ユーザの発話のうちの1つまたは複数の可聴フィードバックを、前記スピーカを介して提示する可聴提示提供回路と、
を含む、項目1から9のいずれか一項に記載の装置。
[項目11]
1つまたは複数の発話言語スキルを教育および/または評価する方法であって、
ユーザが読むように構成された少なくとも1つの教育用文字列を提供する段階と、
前記少なくとも1つの教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階と、
前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、ベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対する少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性の測定を有する段階と、
前記ユーザに評価提示を提供する段階であって、前記評価提示は、分析された前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性に基づく前記教育用文字列音声サンプルデータの評価の前記ユーザへの提示を含む、段階と
を備える方法。
[項目12]
収集された前記教育用文字列音声サンプルデータの前記評価に少なくとも部分的に基づく前記1つまたは複数のさらなる教育用文字列の判定を受信する段階をさらに備え、前記判定は、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々の前記評価にアクセスできる審査官によって実行される、項目11に記載の方法。
[項目13]
前記教育用文字列音声サンプルデータの前記評価を収集する段階をさらに備え、評価された前記教育用文字列音声サンプルデータは、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々の評価を含み、前記1つまたは複数の発音特性は、ピッチ発音特性、イントネーション発音特性、周波数発音特性、強勢発音特性、アクセント発音特性、発話速度発音特性、ためらい発音特性、フィラー音発音特性、およびチャンク発音特性のうちの1つまたは複数を含む、項目11または12に記載の方法。
[項目14]
収集された前記教育用文字列音声サンプルデータの前記評価に少なくとも部分的に基づいて、1つまたは複数のさらなる教育用文字列を判定する段階をさらに備え、前記ピッチ発音特性、前記イントネーション発音特性、前記周波数発音特性、前記強勢発音特性、前記アクセント発音特性、前記発話速度発音特性、前記ためらい発音特性、前記フィラー音発音特性、前記チャンク発音特性のうちの1つまたは複数を含む1つまたは複数の発音特性を対象とすることにより、前記1つまたは複数のさらなる教育用文字列は、分析および評価のために前記ユーザからキャプチャされた場合に前記ユーザの発話言語スキルを向上させるために計算される、項目13に記載の方法。
[項目15]
ユーザが読むように構成された少なくとも1つの教育用文字列を提供し、前記少なくとも1つの教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを受信し、前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析し、前記ユーザに評価提示を提供する前記段階を特定の回数だけ、異なる教育用文字列については前記特定の回数の少なくとも一部だけ繰り返す段階と、
前記特定の回数ごとに前記教育用文字列音声サンプルデータの前記評価を収集する段階であって、評価された前記教育用文字列音声サンプルデータは、分析および評価のために前記ユーザからキャプチャされた場合に前記ユーザの発話言語スキルを向上させるために計算される1つまたは複数のさらなる教育用文字列を判定するために少なくとも部分的に使用される、段階と、
収集された前記教育用文字列音声サンプルデータの前記評価を使用して、前記1つまたは複数のさらなる教育用文字列を判定する段階と
をさらに備える、項目11から14のいずれか一項に記載の方法。
[項目16]
1人または複数のユーザのセットをクラスにグループ化する段階と、
繰り返す前記段階と、前記クラス内の前記ユーザの各々について前記教育用文字列音声サンプルデータの前記評価を収集する前記段階とを実行する段階と、
をさらに備える、項目15に記載の方法。
[項目17]
前記クラスの1つまたは複数のパフォーマンス特性とともに、前記クラスのリストを命令エンティティに視覚的に表示する段階と、
追加の特性視認の対象となる前記クラス内の1人または複数のユーザの選択を前記命令エンティティから受信する段階と、
前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々について、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す構成要素スコアを前記命令エンティティに提示する段階と、
をさらに備える、項目16に記載の方法。
[項目18]
前記ユーザに評価提示を提供する前記段階は、
前記評価提示の一部として、前記1つまたは複数の個々の言語構成要素の前記1つまたは複数の発音特性の各々について、特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す構成要素スコアを提供する段階
をさらに有する、項目11から17のいずれか一項に記載の方法。
[項目19]
特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す前記構成要素スコアは、
前記特定の個々の言語構成要素が前記特定のベースラインの個々の言語構成要素と一致するかどうかを表す2進インジケータ
をさらに含む、項目18に記載の方法。
[項目20]
特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す前記構成要素スコアは、
前記特定の個々の言語構成要素が前記特定のベースラインの個々の言語構成要素と一致する離散量を表す数値スコアインジケータ
をさらに含む、項目18または19に記載の方法。
[項目21]
特定の個々の言語構成要素が特定のベースラインの個々の言語構成要素にどれだけ厳密に一致するかを表す前記構成要素スコアは、
前記特定の個々の言語構成要素が前記特定のベースラインの個々の言語構成要素とどれだけ厳密に一致するかを、段階的なカラースケールで視覚的に表す色分けされたスコアインジケータ
をさらに含む、項目18から20のいずれか一項に記載の方法。
[項目22]
前記ユーザに評価提示を提供する前記段階は、
分析された前記教育用文字列音声サンプルデータに基づいて、前記少なくとも1つの教育用文字列の言語での前記ユーザの流暢さの数値評価を前記ユーザに提供する段階
を有する、項目11から21のいずれか一項に記載の方法。
[項目23]
前記ユーザに評価提示を提供する前記段階は、
前記ユーザと関連付けられる装置のスクリーン上で前記ユーザに前記評価提示を表示する段階を有し、前記評価提示は、前記ユーザからの対話を受信するように構成された1つまたは複数の対話型オブジェクトを含む、項目11から22のいずれか一項に記載の方法。
[項目24]
前記評価提示は、前記ユーザからの対話を受信するように構成された1つまたは複数の対話型オブジェクトを含み、前記方法は、
前記評価提示を前記ユーザと関連付けられる装置のスクリーン上で前記ユーザに表示する段階であって、前記評価提示は、前記ユーザにとって問題があると識別された特定の個々の言語構成要素ごとに対話型オブジェクトを含む、段階と、
前記ユーザが各対話型オブジェクトと直接対話できるようにして、前記ユーザが、前記ユーザにとって問題があると識別された少なくとも1つの前記特定の個々の言語構成要素との分離および対象の対話を通じて、前記少なくとも1つの教育用文字列と関連付けられる言語での特定レベルの流暢さを達成するための時間を短縮できるようにする段階と
を備える、項目23に記載の方法。
[項目25]
前記評価提示は、前記ユーザからの対話を受信するように構成された1つまたは複数の対話型オブジェクトを含み、
前記ユーザからの対話に応答して、前記個々の言語構成要素と、前記1つまたは複数のベースラインの個々の言語構成要素の対応するベースラインの個々の言語構成要素との間の個々のスコア比較を表示する対話型オブジェクトとして、前記個々の言語構成要素のうちの少なくとも1つを表示する評価提示
を含む、項目23または24に記載の方法。
[項目26]
前記個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間の前記個々のスコア比較は、特定の閾値レベル未満のすべての個々のスコア比較について示され、前記ユーザの学習時間の短縮を促進する、項目25に記載の方法。
[項目27]
前記個々の言語構成要素と、対応するベースラインの個々の言語構成要素との間の前記個々のスコア比較は、
前記個々の言語構成要素と、前記対応するベースラインの個々の言語構成要素との間のピッチの個々の比較、イントネーションの個々の比較、強勢の個々の比較、アクセントの個々の比較、発話速度の個々の比較、ためらいの個々の比較、フィラー音の個々の比較、およびチャンクの個々の比較
を含む、項目25または26に記載の方法。
[項目28]
前記ピッチの個々の比較、イントネーションの個々の比較、強勢の個々の比較、アクセントの個々の比較、発話速度の個々の比較、ためらいの個々の比較、フィラー音の個々の比較、およびチャンクの個々の比較はそれぞれ、前記個々の言語構成要素と、前記対応するベースラインの個々の言語構成要素との間のデルタを表す数値スコアを含む、項目27に記載の方法。
[項目29]
前記評価提示は、前記ユーザからの対話を受信するように構成された1つまたは複数の対話型オブジェクトと、
評価音声提示を前記ユーザに提示するように構成された対話型オブジェクトと
を含み、前記評価音声提示は、前記少なくとも1つの教育用文字列の特定部分の音声提示と、前記少なくとも1つの教育用文字列の前記特定部分の前記ユーザの発音の音声提示とのうちの1つまたは複数を含む、項目23から28のいずれか一項に記載の方法。
[項目30]
前記評価音声提示の少なくとも一部は、前記少なくとも1つの教育用文字列の前記特定部分と、他の教育用文字列の他の関連部分とを発音する際の前記ユーザのパフォーマンスの分析に基づいて増幅または減速され、前記少なくとも1つの教育用文字列の前記特定部分の前記ユーザの発音の間違いを認識および修正する前記ユーザの能力を強化する、項目29に記載の方法。
[項目31]
前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する前記段階は、
前記1つまたは複数の個々の言語構成要素を1つまたは複数の個々の言語構成要素グループにグループ化する段階と、
前記ベースラインの個々の言語構成要素に対するピッチ、イントネーション、周波数、強勢、アクセント、タイミング、発話速度、ためらい、フィラー音およびチャンクのうちの1つまたは複数の測定を通じて、前記1つまたは複数の個々の言語構成要素グループを分析する段階と、
前記評価提示の一部として、分析された前記1つまたは複数の個々の言語構成要素グループの結果を含める段階と
を有する、項目11から30のいずれか一項に記載の方法。
[項目32]
前記1つまたは複数の個々の言語構成要素を1つまたは複数の個々の言語構成要素グループにグループ化する前記段階は、
前記1つまたは複数の個々の言語構成要素を音節、単語、語句、および/または文のグループにグループ化する段階
を含む、項目31に記載の方法。
[項目33]
前記少なくとも1つの教育用文字列は、音節、単語、文、段落、または段落のセットのうちの1つまたは複数である、項目11から32のいずれか一項に記載の方法。
[項目34]
前記個々の言語構成要素は、音素または他の知覚的に異なる音の単位である、項目11から33のいずれか一項に記載の方法。
[項目35]
ユーザの言語の流暢さを改善する方法であって、
部分的に編集された少なくとも1つの教育用文字列を提供する段階であって、前記部分的に編集された少なくとも1つの教育用文字列は、前記部分的に編集された少なくとも1つの教育用文字列が前記ユーザに提示される場合に前記部分的に編集された少なくとも1つの教育用文字列から編集された1つまたは複数の編集部分を含む、段階と、
前記1つまたは複数の編集部分を構成する単語の評価に関する前記ユーザの発話に対応する1つまたは複数の対象文字列に関する前記ユーザの発話を含む前記部分的に編集された少なくとも1つの教育用文字列に関する前記ユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階と、
前記1つまたは複数の編集部分を含む前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
前記部分的に編集された少なくとも1つの教育用文字列のベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対して前記教育用文字列音声サンプルデータの少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定する段階と、
前記1つまたは複数の対象文字列の前記個々の言語構成要素の前記1つまたは複数の発音特性を少なくともさらに測定することにより、前記1つまたは複数の対象文字列と前記1つまたは複数の編集部分との間の変化を判定する段階と
を有する段階と、
前記1つまたは複数の対象文字列と前記1つまたは複数の編集部分との間の判定された前記変化に少なくとも部分的に基づいて、前記教育用文字列音声サンプルデータの品質測定値を提供する段階と、
を備える方法。
[項目36]
ユーザの言語の流暢さを改善する方法であって、
少なくとも1つのオプション選択教育用セットを提供する段階であって、前記少なくとも1つのオプション選択教育用セットは、2つ以上の関連オプション選択教育用文字列のセットを含み、前記2つ以上の関連オプション選択教育用文字列のセットの優先オプション選択教育用文字列は、2つ以上の関連オプション選択教育用文字列のセットの他のオプション選択教育用文字列よりも正確な教育用文字列である、段階と、
前記2つ以上の関連オプション選択教育用文字列のセットから、ユーザが選択した教育用文字列に関するユーザの発話に対応する教育用文字列音声サンプルデータを受信する段階と、
前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
ベースラインの個々の言語構成要素の対応する1つまたは複数の発音特性に対して少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定する段階と、
前記ユーザが選択した教育用文字列が前記優先オプション選択教育用文字列と一致するかどうかを判定し、前記ユーザが選択した教育用文字列の前記個々の言語構成要素の前記1つまたは複数の発音特性をさらに測定する段階と
を有する段階と、
測定された前記1つまたは複数の発音特性と、前記ユーザが選択した教育用文字列と前記優先オプション選択教育用文字列との間の判定された前記一致とに少なくとも部分的に基づいて、前記教育用文字列音声サンプルデータの品質測定値を提供する段階と
を備える方法。
[項目37]
ユーザの言語の流暢さを改善する方法であって、
プロンプト文字列に応答する対応するベースライン応答文字列が存在する、前記プロンプト文字列を、聴覚的に、視覚的に、またはそれらの組み合わせで提供する段階と、
前記プロンプト文字列に対する前記ユーザの応答文字列に対応する教育用文字列音声サンプルデータを受信する段階と、
前記教育用文字列音声サンプルデータの1つまたは複数の個々の言語構成要素を分析する段階であって、
前記ベースライン応答文字列の対応する個々の言語構成要素の対応する1つまたは複数の発音特性に対して前記応答文字列の少なくとも1つの個々の言語構成要素の1つまたは複数の発音特性を測定する段階と、
前記応答文字列が前記プロンプト文字列に応答するかどうかを判定する段階と
を有する段階と、
測定された前記応答文字列の前記1つまたは複数の発音特性と、前記プロンプト文字列に対する前記応答文字列の前記判定された応答性とに少なくとも部分的に基づいて、前記教育用文字列音声サンプルデータの品質測定値を提供する段階と、
を備える方法。
図1
図2A
図2B
図2C
図2D
図2E
図2F
図3A
図3B
図4
図5A
図5B
図5C
図5D
図5E
図5F
図6
図7A
図7B
図7C
図7D
図8A
図8B
図9
図10
図11
図12
図13