(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024161861
(43)【公開日】2024-11-20
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G09B 19/04 20060101AFI20241113BHJP
G10L 25/51 20130101ALI20241113BHJP
【FI】
G09B19/04
G10L25/51
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023077516
(22)【出願日】2023-05-09
(11)【特許番号】
(45)【特許公報発行日】2024-01-30
(31)【優先権主張番号】18/144,623
(32)【優先日】2023-05-08
(33)【優先権主張国・地域又は機関】US
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り https://www.goril.jp
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り https://www.youtube.com/@goril569/about
(71)【出願人】
【識別番号】518390309
【氏名又は名称】ムーン クリエイティブ ラボ インク.
【氏名又は名称原語表記】Moon Creative Lab Inc.
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】ニック シューマン
(72)【発明者】
【氏名】ダニエル ブレナーズ
(72)【発明者】
【氏名】ブライアン マ
(72)【発明者】
【氏名】マテウス レゼンデ
(72)【発明者】
【氏名】ジャスティン チェン
(57)【要約】
【課題】言語学習を行うユーザを適切にサポートする情報処理装置及び情報処理方法等の提供。
【解決手段】 情報処理装置は、第1言語の学習を行うユーザの音声情報を取得する音声情報取得部と、音声情報の解析処理に基づいてユーザの発声状態を推定する解析処理部と、推定された発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する処理を行う表示処理部と、を含み、表示処理部は、第1言語における第1の音を発音する際の発声状態に基づいて特定される第1特徴点、及び、第1言語とは異なる第2言語において、第1の音に類似する第2の音を発音する際の発声状態に基づいて特定される第2特徴点を、複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1言語の学習を行うユーザの音声情報を取得する音声情報取得部と、
前記音声情報の解析処理に基づいて、前記ユーザの顎の状態及び舌の状態を表す発声状態を推定する解析処理部と、
推定された前記発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する処理を行う表示処理部と、
を含み、
前記表示処理部は、
前記第1言語における第1の音を発音する際の前記発声状態に基づいて特定される第1特徴点、及び、前記第1言語とは異なる第2言語において、前記第1の音に類似する第2の音を発音する際の前記発声状態に基づいて特定される第2特徴点を、前記複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う情報処理装置。
【請求項2】
請求項1において、
前記表示処理部は、
前記解析処理部によって推定された前記発声状態と、前記第1特徴点に対応する前記発声状態との類似度が所定閾値以上である場合と、前記類似度が前記所定閾値未満である場合とで、表示態様を変更する処理を行う情報処理装置。
【請求項3】
請求項2において、
前記アニメーション表示は、人物の顎及び舌を含む頭部を表示する画面であり、
前記表示処理部は、
前記類似度が前記所定閾値以上である場合と、前記所定閾値未満である場合とで、前記アニメーション表示される人物の表情を変更する処理を行う情報処理装置。
【請求項4】
請求項1において、
前記表示処理部は、
前記解析処理部によって推定された前記発声状態に基づいて特定される特徴点を、前記アニメーション表示に重畳して表示する処理を行う情報処理装置。
【請求項5】
請求項1乃至4の何れか一項において、
前記表示処理部は、
前記第1言語において、前記第2言語の前記第2の音に類似する音として、前記第1の音及び第3の音がある場合に、前記第1の音を含む単語、及び、前記第3の音を含む単語を含む複数の単語を連続的に前記ユーザに発声させる指示画面を表示する処理を行う情報処理装置。
【請求項6】
請求項1乃至4の何れか一項において、
前記表示処理部は、
前記第1言語において、前記第2言語の前記第2の音に類似する音として、前記第1の音及び第3の音がある場合に、前記第3の音を発音する際の前記発声状態に基づいて特定される第3特徴点、前記第1特徴点、及び第2特徴点を、互いに識別可能な態様で前記アニメーション表示に重畳して表示する処理を行う情報処理装置。
【請求項7】
請求項6において、
前記表示処理部は、
前記第1の音を所定回数以上、前記ユーザに発声させる指示画面の表示処理を行った後、前記第3の音を所定回数以上、前記ユーザに発声させる指示画面の表示処理を行う情報処理装置。
【請求項8】
請求項1乃至4の何れか一項において、
前記表示処理部は、
前記ユーザの習熟度が低いと判定された場合、前記第1の音の発音記号として、文字情報を表示する処理を行い、
前記ユーザの習熟度が高いと判定された場合、前記第1の音の前記発音記号として、前記第1の音を発声する際の口の形状を表す画像情報を表示する処理を行う情報処理装置。
【請求項9】
請求項1乃至4の何れか一項において、
前記表示処理部は、
前記第1の音の発声に近い前記発声状態を用いて発声を行う日常動作を決定し、前記第1の音を含む単語と関連付けて、前記日常動作を表示する処理を行う情報処理装置。
【請求項10】
請求項1乃至4の何れか一項において、
前記表示処理部は、
前記第1の音の発声に近い前記発声状態を含む前記第2言語の単語である類似発声語を決定し、前記第1の音を含む単語と関連付けて、前記類似発声語を表示する処理を行う情報処理装置。
【請求項11】
第1言語の学習を行うユーザの音声情報を取得し、
前記音声情報の解析処理に基づいて、前記ユーザの顎の状態及び舌の状態を表す発声状態を推定し、
推定された前記発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する表示処理を行い、
前記表示処理において、
前記第1言語における第1の音を発音する際の前記発声状態に基づいて特定される第1特徴点、及び、前記第1言語とは異なる第2言語において、前記第1の音に類似する第2の音を発音する際の前記発声状態に基づいて特定される第2特徴点を、前記複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法等に関する。
【背景技術】
【0002】
従来、音声情報に基づいてユーザの発声状態を可視化する手法が知られている。例えば特許文献1には、音声データを声道パラメータに変換し、当該声道パラメータ及び識別器に基づいて座標ベクトル系列を生成し、当該座標ベクトル系列に基づく画像を表示する発音動作可視化装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2013/031677号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の手法では、発声に伴う舌等の動きが画像として表示されるが、学習対象の言語(例えば英語)の音と、他の言語(例えば学習者の母国語)の音との関係は考慮されていない。
【0005】
本開示のいくつかの態様によれば、言語学習を行うユーザを適切にサポートする情報処理装置及び情報処理方法等を提供できる。
【課題を解決するための手段】
【0006】
本開示の一態様は、第1言語の学習を行うユーザの音声情報を取得する音声情報取得部と、前記音声情報の解析処理に基づいて、前記ユーザの顎の状態及び舌の状態を表す発声状態を推定する解析処理部と、推定された前記発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する処理を行う表示処理部と、を含み、前記表示処理部は、前記第1言語における第1の音を発音する際の前記発声状態に基づいて特定される第1特徴点、及び、前記第1言語とは異なる第2言語において、前記第1の音に類似する第2の音を発音する際の前記発声状態に基づいて特定される第2特徴点を、前記複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う情報処理装置に関係する。
【0007】
本開示の他の態様は、第1言語の学習を行うユーザの音声情報を取得し、前記音声情報の解析処理に基づいて、前記ユーザの顎の状態及び舌の状態を表す発声状態を推定し、推定された前記発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する処理を行い、前記表示処理において、前記第1言語における第1の音を発音する際の前記発声状態に基づいて特定される第1特徴点、及び、前記第1言語とは異なる第2言語において、前記第1の音に類似する第2の音を発音する際の前記発声状態に基づいて特定される第2特徴点を、前記複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う情報処理方法に関係する。
【図面の簡単な説明】
【0008】
【
図1】情報処理装置を含む情報処理システムの構成例である。
【
図4】本実施形態の処理を説明するフローチャートである。
【
図5】発声状態に基づいて所与の音を座標空間にプロットする処理の説明図である。
【
図6】第1の音と第2の音を表す特徴点がアニメーション表示に重畳表示される表示画面の例である。
【
図7】第1の音と第2の音を表す特徴点がアニメーション表示に重畳表示される表示画面の例である。
【
図8A】所与の音(単語)を学習する際の表示画面の例である。
【
図8B】所与の音(単語)を学習する際の表示画面の例である。
【
図9】本実施形態の処理を説明するフローチャートである。
【
図10A】単語リストを用いた学習に用いられる表示画面の例である。
【
図10B】単語リストを用いた学習に用いられる表示画面の例である。
【
図10C】単語リストを用いた学習に用いられる表示画面の例である。
【
図10D】単語リストを用いた学習に用いられる表示画面の例である。
【
図11A】文字情報の発音記号を表示する画面例である。
【
図11B】画像情報の発音記号を表示する画面例である。
【
図12】本実施形態の処理を説明するフローチャートである。
【
図13】単語と日常動作を関連付けて表示する画面例である。
【
図14】本実施形態の処理を説明するフローチャートである。
【発明を実施するための形態】
【0009】
以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0010】
1.システム構成例
図1は、本実施形態に係る情報処理装置を含む情報処理システム10の構成例である。本実施形態に係る情報処理システム10は、サーバシステム100と端末装置200とを含む。ただし、情報処理システム10の構成は必ずしも
図1に限定されず、例えば一部の構成を省略したり他の構成を追加したりするなどの種々の変形実施が可能である。また、構成の省略や追加などの変形実施が可能である点は、後述する
図2及び
図3においても同様である。
【0011】
本実施形態の情報処理装置は、例えばサーバシステム100に対応する。ただし、本実施形態の手法はこれに限定されず、サーバシステム100と他の装置を用いた分散処理によって、本明細書で説明する情報処理装置の処理が実行されてもよい。例えば、本実施形態の情報処理装置は、サーバシステム100と端末装置200の両方を含んでもよい。また本実施形態の情報処理装置は、端末装置200であってもよい。以下、本明細書では、主に情報処理装置がサーバシステム100である場合の例について説明する。
【0012】
サーバシステム100は、1つのサーバであってもよいし、複数のサーバを含んで構成されていてもよい。例えば、サーバシステム100は、データベースサーバとアプリケーションサーバとを含んで構成されていてもよい。データベースサーバは、第1言語(学習対象言語、例えば英語)の母音や子音に関する情報、第2言語(第1言語以外の言語、例えば日本語)の母音や子音に関する情報等、種々のデータを記憶する。アプリケーションサーバは、
図4等を用いて後述する処理を実行する。なお、ここでの複数のサーバは、物理サーバであってもよいし、仮想サーバであってもよい。また、仮想サーバが用いられる場合、当該仮想サーバは、1つの物理サーバに設けられてもよいし、複数の物理サーバに分散して配置されてもよい。このように、本実施形態におけるサーバシステム100の具体的な構成は、種々の変形実施が可能である。
【0013】
端末装置200は、情報処理システム10によって実現されるサービス(例えば言語学習サービス)を利用するユーザによって使用される装置である。端末装置200は、PC(Personal Computer)であってもよいし、スマートフォンなどの携帯端末装置であってもよいし、本明細書で説明する機能を有する他の装置であってもよい。
【0014】
サーバシステム100は、例えばネットワークを介して端末装置200と通信可能に接続される。ここでのネットワークは、例えばインターネットなどの公衆通信網であるが、LAN(Local Area Network)などであってもよい。
【0015】
本実施形態の情報処理システム10は、例えば第1言語の学習を行うユーザに対して、学習支援を行うシステムであってもよい。ここでのユーザは、第1言語とは異なる第2言語を母国語とするユーザであってもよい。以下、第1言語が英語であり、第2言語が日本語である例について説明する。ただし、第1言語と第2言語は異なる言語であればよく、組み合わせはこれに限定されない。例えば第1言語が英語である場合に、第2言語はタイ語であってもよいし、インドネシア語であってもよいし、他の言語であってもよい。また第1言語は英語以外の言語であってもよい。
【0016】
図2は、サーバシステム100の詳細な構成例を示す機能ブロック図である。サーバシステム100は、例えば
図2に示すように、処理部110と、記憶部120と、通信部130と、を含む。
【0017】
本実施形態の処理部110は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子によって構成できる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシタ等である。
【0018】
また処理部110は、下記のプロセッサによって実現されてもよい。本実施形態のサーバシステム100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プログラムは、サーバシステム100に、本明細書で説明する処理を実行させるものを含んでよい。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置(HDD:Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、処理部110の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
【0019】
処理部110は、例えば音声情報取得部111と、解析処理部112と、表示処理部113を含む。なお上述したように、本実施形態に係る情報処理装置は、サーバシステム100と端末装置200の分散処理によって実現されてもよいし、端末装置200であってもよい。従って、音声情報取得部111と、解析処理部112と、表示処理部113の少なくとも一部が端末装置200に設けられてもよい。
【0020】
音声情報取得部111は、第1言語の学習を行うユーザの音声情報を取得する。ここでの音声情報は、具体的にはユーザが第1言語の単語や文章を発話した音声に関するデータである。例えば、端末装置200はユーザの音声を録音するマイク等を含み、音声情報取得部111は、端末装置200から音声情報を取得する。ただし、音声情報を取得する機器が端末装置200とは別に設けられてもよい。
【0021】
解析処理部112は、音声情報の解析処理を行うことによって、ユーザの顎の状態及び舌の状態を表す発声状態を推定する。例えば本実施形態では、学習用の音声情報に対して、当該音声情報に対応する発声状態が正解データとして付与された訓練データに基づいて機械学習が行われてもよい。解析処理部112は、当該機械学習の結果である学習済モデルを取得し、当該学習済モデルに解析対象の音声情報を入力することによって解析処理を行う。
【0022】
表示処理部113は、推定された発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する処理を行う。発声状態画像とは、例えば舌及び顎の位置を変更可能な画像であり、例えば
図6-
図7を用いて後述する画面における人物の横顔を表す画像である。つまり表示処理部113は、
図6-
図7等を用いて後述する画面を表示させる処理を行ってもよい。例えば表示処理部113は、発声状態の時系列的な変化に基づいて複数の発声状態画像を生成し、当該複数の発声状態画像を端末装置200の表示部240に順次表示させる(アニメーション表示させる)処理を行う。なお表示処理部113は、発声状態画像そのものを生成するのではなく、発声状態画像を生成する(特定する)ための情報を求めてもよい。例えば、アニメーション表示の対象となる複数の発声状態画像の候補が端末装置200に記憶されており、表示処理部113は、当該複数の候補のうち、表示対象となる発声状態画像を特定する情報を端末装置200に送信してもよい。この場合も、表示処理部113の処理によって、複数の発声状態画像のアニメーション表示が実現される。
【0023】
記憶部120は、処理部110のワーク領域であって、種々の情報を記憶する。記憶部120は、種々のメモリによって実現が可能であり、メモリは、SRAM、DRAM、ROM、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。
【0024】
記憶部120は、例えば解析処理部112での処理に用いられる学習済モデルを記憶する。また、記憶部120は、第1言語における音と、座標空間(例えば2次元座標平面)での位置を対応付けた情報(
図5を用いて後述)を記憶してもよい。その他、記憶部120は本実施形態の処理に係る種々の情報を記憶可能である。
【0025】
通信部130は、ネットワークを介した通信を行うためのインターフェイスであり、例えばアンテナ、RF(radio frequency)回路、及びベースバンド回路を含む。通信部130は、処理部110による制御に従って動作してもよいし、処理部110とは異なる通信制御用のプロセッサを含んでもよい。通信部130は、例えばTCP/IP(Transmission Control Protocol/Internet Protocol)に従った通信を行うためのインターフェイスである。ただし具体的な通信方式は種々の変形実施が可能である。
【0026】
図3は、端末装置200の詳細な構成例を示すブロック図である。端末装置200は、処理部210と、記憶部220と、通信部230と、表示部240と、操作部250を含む。
【0027】
処理部210は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアによって構成される。また処理部210は、プロセッサによって実現されてもよい。プロセッサは、CPU、GPU、DSP等、各種のプロセッサを用いることが可能である。端末装置200のメモリに格納された命令をプロセッサが実行することによって、処理部210の機能が処理として実現される。
【0028】
記憶部220は、処理部210のワーク領域であって、SRAM、DRAM、ROM等の種々のメモリによって実現される。
【0029】
通信部230は、ネットワークを介した通信を行うためのインターフェイスであり、例えばアンテナ、RF回路、及びベースバンド回路を含む。通信部230は、例えばネットワークを介して、サーバシステム100との通信を行う。
【0030】
表示部240は、種々の情報を表示するインターフェイスであり、液晶ディスプレイであってもよいし、有機ELディスプレイであってもよいし、他の方式のディスプレイであってもよい。表示部240は、例えば
図6-
図8B、
図10A-
図11B、
図13等を用いて後述する各種画面を表示する。
【0031】
操作部250は、ユーザによる操作入力を受け付けるインターフェイスである。操作部250は、例えば端末装置200に設けられるボタン等であってよい。また表示部240と操作部250は、一体として構成されるタッチパネルであってもよい。
【0032】
本実施形態に係る情報処理装置の表示処理部(例えばサーバシステム100の表示処理部113)は、第1言語における第1の音を発音する際の発声状態に基づいて特定される第1特徴点、及び、第1言語とは異なる第2言語において、第1の音に類似する第2の音を発音する際の発声状態に基づいて特定される第2特徴点を、複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う。例えば、英語のhat, hut, hotという単語を発音する場合、それぞれ母音としてae, α, Λが含まれる。なお、ここでのae, α, Λは、表記の便宜上、発音記号を他の文字で代用しているものであり、以下の表1に従って発音記号に置き換えられるものとする。またae, α, Λの各文字が表1に従って発音記号に置き換えられる点は、本実施形態の他の箇所においても同様である。例えば英語が第1の言語に対応し、ae, α, Λの少なくとも1つが第1の音に対応する。これらは英語では明確に区別されるべき母音であるが、日本語を使用するユーザからするといずれも「ア」に近い発音と認識される。例えば日本語が第2の言語に対応し、「ア」が第2の音に対応する。本実施形態の手法では、第2言語の話者が誤解、混同しやすい音が存在する場合に、これらをアニメーション表示上の異なる位置に配置することが可能になる。結果として、「ae」と「ア」の違い、「α」と「ア」の違い、「Λ」と「ア」の違い等をユーザに明確に提示できるため、ユーザによる第1言語の学習を適切にサポートすることが可能になる。具体的な手法については、
図6等を用いて後述する。
【0033】
【0034】
また、本実施形態の情報処理装置(情報処理システム10)が行う処理の一部又は全部は、プログラムによって実現されてもよい。情報処理装置が行う処理とは、サーバシステム100の処理部110が行う処理であってもよいし、端末装置200の処理部210が行う処理であってもよいし、この両方であってもよい。
【0035】
本実施形態に係るプログラムは、例えばコンピュータによって読み取り可能な媒体である非一時的な情報記憶媒体に格納できる。情報記憶媒体は、例えば光ディスク、メモリーカード、HDD、或いは半導体メモリなどによって実現できる。半導体メモリは例えばROMである。処理部110等は、情報記憶媒体に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体は、処理部110等としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、
図4等を用いて後述する各ステップを、コンピュータに実行させるためのプログラムである。
【0036】
また本実施形態の手法は、以下の各ステップを含む情報処理方法に適用できる。情報処理方法は、第1言語の学習を行うユーザの音声情報を取得し、音声情報の解析処理に基づいて、ユーザの顎の状態及び舌の状態を表す発声状態を推定し、推定された発声状態の時系列的な変化に基づいて、複数の発声状態画像をアニメーション表示する表示処理を行うステップを含む。そして情報処理方法は、表示処理を行うステップにおいて、第1言語における第1の音を発音する際の発声状態に基づいて特定される第1特徴点、及び、第1言語とは異なる第2言語において、第1の音に類似する第2の音を発音する際の発声状態に基づいて特定される第2特徴点を、複数の発声状態画像のアニメーション表示に重畳して表示する処理を行う。
【0037】
2.処理の詳細
以下、本実施形態の処理について詳細に説明する。
【0038】
2.1 発音練習の基本的な流れ
図4は、本実施形態の情報処理装置の処理を説明するフローチャートである。
図4は、例えば端末装置200のユーザによって第1言語の学習が行われる際に実行される処理を表す。まずステップS101において、端末装置200の操作部250は、ユーザによる学習項目の入力操作を受け付ける。例えば本実施形態の情報処理システム10は、第1言語における所定の音の発音学習をサポートする処理を行ってもよい。この場合、ステップS101において、操作部250は、学習対象となる具体的な音の選択を受け付けてもよい。
【0039】
例えば上述したように、日本語のユーザにとって、英語のae, α, Λはいずれも日本語の「ア」に近いため、習得が容易でない可能性がある。そこで情報処理システム10は、英語のae, α, Λの選択入力を受け付けることによって、これらの発音に関する学習をサポートする処理を行ってもよい。端末装置200は、操作部250の操作によって決定された英語の音(第1言語の第1の音)を特定する情報を、サーバシステム100に送信する。なお操作部250は、ae, α, Λ等の具体的な音の選択操作ではなく、当該音を含む単語(例えばhat等)の選択操作を受け付けてもよい。
【0040】
ステップS102において、処理部110は、英語の音に類似する日本語の音(第2言語の第2の音)を特定する処理を行う。例えばサーバシステム100の記憶部120は、英語における音と、それに類似する日本語の音を対応付けたテーブルデータを記憶してもよい。処理部110は、英語の音の入力結果とテーブルデータに基づいて、類似する日本語の音を特定する。なお、ステップS101及びS102の処理では、英語の音と日本語の音の対応付けが特定されればよく、具体的な順序はこれに限定されない。例えばステップS101で日本語の音(例えば「ア」)が選択され、ステップS102で当該音に対応する英語の音(例えばae, α, Λ)が学習対象の音として特定されてもよく、具体的な処理は種々の変形実施が可能である。
【0041】
ステップS103において、処理部110は、所与の座標空間における第1の音(ae, α, Λ)の位置、及び第2の音(「ア」)の位置を特定する処理を行う。
図5は、座標空間(座標平面)の例、及び、それぞれの音に対応する位置の例を示す図である。
【0042】
図5に示すように、ここでの座標空間は、第1軸が舌の上下方向(鉛直方向)の位置を表す軸であり、第2軸が舌の前後方向での位置を表す軸であってもよい。ここでの前後とは、人の正面方向(顔が向いている方向)が前であり、その反対方向が後ろである。また上下とは、頭部の基準点(例えば中心)から頭頂方向が上であり、その反対方向(例えば基準点から首へ向かう方向)が下である。ここでの舌の位置は、舌の中の特定の代表点の位置を表してもよいし、対象の音を発する際に最も大きく移動する部位の位置が音毎に選択されてもよい。
図5の例では、人の前後及び上下方向によって規定される平面(即ち、人の顔を横から見たときの断面)における舌の位置に基づいて、各音の特徴点が決定される。また
図5の例において、縦軸(第1軸)は顎の開き具合を表し、縦軸の上方向が顎の開きが狭く、下方向が顎の開きが広いことを表してもよい。
【0043】
例えばサーバシステム100の記憶部120は、各言語における音と、当該音の各軸での値を対応付けたテーブルデータを記憶してもよい。
図5に示す例であれば、サーバシステム100の記憶部120は、各言語における音と、当該音の理想的な発声状態における舌の位置を対応付けたテーブルデータを記憶してもよい。ここでの理想的な発声状態は、例えば対象の言語を母国語とするユーザの発声結果から決定されてもよい処理部110は、ステップS101-S102で特定された第1の音とテーブルデータに基づいて、第1の音に対応する位置を表す第1特徴点を決定する。同様に処理部110は、第2の音とテーブルデータに基づいて、第2の音に対応する位置を表す第2特徴点を決定する。なお第1特徴点及び第2特徴点は、座標空間の一点に限定されず、ある程度の大きさを有する領域であってもよい。
【0044】
なお、座標空間の例は以上に限定されない。例えば座標空間の軸は、舌以外の口腔状態に関する情報に対応してもよい。舌以外の口腔状態とは、上顎、下顎、口蓋、口唇等の状態を表す情報を含んでもよい。即ち、第1特徴点及び第2特徴点は、発声時の顎、口蓋、口唇等の位置に対応する点または領域であってもよい。
【0045】
以上の処理により、学習対象となる英語の音(第1の音)、及び、それに類似する日本語の音(第2の音)を座標空間上にプロットすることが可能になる。さらに、情報処理システム10は、ユーザに実際に発声を行わせ、その結果と第1の音、第2の音との関係を明示することによって学習をサポートする。
【0046】
図6は、本実施形態の処理によって表示される画面の例であり、例えば表示処理部113の処理に従って、端末装置200の表示部240に表示される画面である。例えば端末装置200の記憶部220には英語学習アプリケーションがインストールされ、処理部210が当該英語学習アプリケーションに従って動作することによって
図6に示す画面が表示されてもよい。ここでの英語学習アプリケーションは、サーバシステム100との通信を行うことによって動作するアプリケーションであってもよい。例えば端末装置200のユーザは、英語学習アプリケーションのホーム画面から所定の操作を行うことによって、第1の音を選択する(ステップS101)。表示処理部113は、当該選択入力、及びステップS102-S103の処理によって取得された情報に基づいて、英語学習アプリケーションに対して指示を行い、英語学習アプリケーションは当該指示に基づいて
図6に示す画面を表示してもよい。なおこれ以降では省略するが、以下の説明における端末装置200の動作についても、英語学習アプリケーションによって実現されてもよい。
【0047】
図6に示す画面は、例えば第1の音(ae, α, Λ)と第2の音(「ア」)が表示される。さらに、ユーザの発声状態を表す人物の画像が表示される。
図6では、舌及び顎の動きを示すための簡略化された人物の横顔が表示される例を示しているが、ユーザの発声状態を図示できる他の画像が用いられてもよい。人物の画像は、ステップS104以降を用いて後述するように、ユーザのリアルタイムでの発声状態に合わせて変化する画像であってもよい。
【0048】
さらに
図6に示すように、本実施形態では、第1の音を表す第1特徴点P1と、第2の音を表す第2特徴点P2が、発声状態を表す人物の画像に重畳して表示されてもよい。
図6では、第1特徴点P1として、ae, α, Λのそれぞれを表す円形の領域が図示される。また
図6では、第2特徴点P2は、「ア」という文字のみが表示される。ただし、第2特徴点P2も円形等の領域として表示されてもよい。例えば、
図5に示したように、舌の位置を表す座標系を用いて各特徴点が配置される場合、
図6の人物の横顔における舌の可動範囲に対応付けて第1特徴点及び第2特徴点を表示することによって、各音を発声する際の舌の状態の違いを分かりやすくユーザに提示することが可能になる。
【0049】
例えば
図6に示すように、表示部240は、『日本語の「ア」と英語の母音とで舌の位置を比べてみよう。』といったテキストを表示してもよい。これにより、第1の音と第2の音の間での発声状態の違い(
図6の例では舌の位置の違い)を分かりやすい態様で表示できる。
【0050】
図6において、画面左下の「試す」ボタンの選択操作が行われた場合に、情報処理システム10は、ユーザの発声に基づく音声情報の取得、及び当該音声情報に関する処理を開始する。
【0051】
具体的には、ステップS104において、情報処理システム10はユーザの発声による音声情報を取得する。例えばステップS104において、端末装置200の表示部240はユーザに第1の音を含む所定の単語の発声を促す表示処理を行う。そして端末装置200に含まれるマイクがユーザの発声を録音することによって音声情報を取得し、音声情報取得部111は、当該音声情報をネットワークを介して受信する。
【0052】
ステップS105において、解析処理部112は、音声情報の解析処理を行う。例えば解析処理部112は、音声情報の周波数解析を行うことによって、当該音声情報のフォルマントを求めてもよい。フォルマントとは、音声の周波数スペクトルのうち、周囲の周波数帯域よりも強度が大きい周波数帯域を表す。そしてステップS106において、解析処理部112は、フォルマントの検出結果に基づいて、ユーザのリアルタイムでの発声状態を推定する。ここでの発声状態とは、舌及び顎(上顎、下顎)の位置を表す情報を含む。また発声状態は、口蓋や口唇の位置を表す情報を含んでもよい。
【0053】
例えば本実施形態では、フォルマントの情報を含む特徴量に対して、発声状態が正解データとして対応付けられた訓練データに基づく学習処理が行われてもよい。当該学習処理によって、フォルマントを含む特徴量を入力として受け付けた場合に、対応する発声状態を出力する学習済モデルが生成される。解析処理部112は、記憶部120から学習済モデルを読み出し、当該学習済モデルにステップS105で求めた特徴量を入力することによって、発声状態を求めてもよい(ステップS106)。なお、モデルの入力データは音声情報から求められる特徴量に限定されず、音声情報自体が入力データとして用いられてもよい。
【0054】
あるいは解析処理部112は、ユーザの発声した音のフォルマントと、第1の音または第2の音のフォルマントの類似度合いを求め、当該類似度合いに基づいて発声状態を特定してもよい。例えば第1の音の理想的な発声状態は既知と考えられるため、解析処理部112は、ユーザの発声が第1の音に近いほど、発声状態が第1の音の発声状態に近くなるようにリアルタイムでの発声状態を求めてもよい。
【0055】
また音声情報に基づいて舌や顎の状態を推定する手法としては、特許文献1等が知られており、本実施形態に係るステップS105及びS106の処理として、特許文献1と同様の手法が用いられてもよい。特許文献1の手法は公知であるため、詳細な説明は省略する。
【0056】
ステップS107において、解析処理部112は、ステップS106で求めた発声状態に基づいて、当該発声状態を表す座標空間上の点を特定する。
図5を用いて上述したように、発声状態に基づいて座標空間の各軸における値(座標値)を特定することが可能である。
【0057】
ステップS108において、表示処理部113は、発声状態を表す人物のアニメーション表示を行う。
図7は、ステップS108において表示(更新)される画面の例である。上述したように、アニメーション表示は、人物の顎及び舌を含む頭部を表示する画面であってもよい。例えば解析処理部112は、1つの音声情報から推定された発声状態に基づいて、1枚の発声状態画像(人物の横顔画像)を生成する。表示処理部113は、複数の音声情報から生成された複数の発声状態画像を時系列的に表示することによって、アニメーション表示を行う。
【0058】
例えば音声情報に基づいて発声状態として舌の位置を特定した結果、平常状態(例えば
図6の状態)に比べて、舌の位置が下方に移動したとする。この場合、表示処理部113は、
図7に示すように、
図6に比べて舌の位置が下方に変化した発声状態画像を表示することによって、アニメーション表示を行う。なお
図7では説明の便宜上、顎の開き具合が
図6から変化していない画像を例示しているが、舌と顎の両方の位置が可変であってもよい。
【0059】
ステップS109において、表示処理部113は、解析処理部112によって推定された発声状態に基づいて特定されるリアルタイムの特徴点Pを、アニメーション表示に重畳して表示する処理を行う。即ち、
図7における点Pは、ユーザの発声状態の変化に応じて、画像上での位置がリアルタイムに変化する点である。このようにすれば、ユーザの発声状態が第1の音と第2の音のいずれに近い状態であるか(あるいはいずれからも遠い状態であるか)を分かりやすい態様でユーザに提示することが可能になる。特に、座標空間として舌の位置を表す軸を設定している場合、現在の発声と理想的な第1の音の発声を比較した場合、舌の位置がどの方向にどの程度ずれてしまっているかをユーザに把握させることが可能になる。本実施形態の手法では、理想的な発音を行うために改善すべき事項が分かりやすいため、ユーザの学習を適切にサポートできる。さらに、第2の音との関係も例示されるため、例えばユーザにとって慣れ親しんだ第2の音を起点として、第1の音に変化させるにはどのように舌の位置を変化させればよいか、といった観点からのサポートも可能になる。
【0060】
さらに表示処理部113は、解析処理部によって推定された発声状態と、第1特徴点P1に対応する発声状態との類似度が所定閾値以上である場合と、類似度が所定閾値未満である場合とで、表示態様を変更する処理を行ってもよい。例えばステップS110において、解析処理部112は、リアルタイムでの特徴点Pと、第1特徴点P1との距離に基づいて類似度を算出してもよい。解析処理部112は、距離が閾値以下である場合(例えば第1特徴点P1が円形の領域である例において、リアルタイムの特徴点Pが当該領域に含まれる場合)に、類似度が閾値以上と判定する。あるいは解析処理部112は、座標空間へのプロット前の情報、例えば音声情報そのものやフォルマント等の特徴量に基づいて、ユーザの発声と第1の音との類似度を算出してもよい。
【0061】
表示処理部113は、類似度が閾値以上である場合、ステップS111において第1態様での表示処理(OK表示)を行い、閾値未満である場合、ステップS112において第1態様とは異なる第2態様での表示処理(NG表示)を行う。
【0062】
図7の例では、ユーザの発声状態を表す特徴点Pが、「ae」に対応する第1特徴点P1に近く、類似度が閾値以上と判定される。よって表示処理部113は、「ae」を表す第1特徴点P1の表示態様を、類似度が閾値以下の状態(例えば
図6の状態)とは異なる態様で表示する処理を行う。これにより、ユーザの発声状態が適切か否かをわかりやすく提示することが可能になる。なお
図7では、「ae」を表す特徴点の色を変更する例を示しているが、表示態様はこれに限定されず、ユーザの発声状態が第1の音に近いか否かが識別可能な種々の態様を用いることが可能である。例えば表示処理部113は、第1特徴点P1の表示サイズを変更してもよいし、第1特徴点P1を点滅表示させてもよい。あるいは表示処理部113は、第1特徴点P1とは異なる表示領域において、ユーザの発声に対するフィードバックを表すテキスト、画像、オブジェクト等を表示してもよい。フィードバックを表すテキストは、例えば「OK」、「NG」等であってもよいし、NGである場合に具体的な修正箇所を提示する情報であってもよい。画像やオブジェクトを表示する場合も同様に種々の変形実施が可能である。
【0063】
あるいは表示処理部113は、類似度が所定閾値以上である場合と、所定閾値未満である場合とで、アニメーション表示される人物の表情を変更する処理を行ってもよい。例えば
図8A及び
図8Bを用いて後述するように、類似度が閾値以上であるOK表示では人物をポジティブな表情(例えば笑顔)で表示し、類似度が閾値未満であるNG表示では人物をニュートラルな表情またはネガティブな表情(例えば泣き顔)で表示してもよい。このようにすれば、人物の横顔の表示を用いて、ユーザの発声状態の良し悪しをわかりやすく提示することが可能になる。
【0064】
ステップS111またはS112の処理後、ステップS113において、処理部110はユーザがステップS101で選択した音の学習処理を終了するか否かを判定する。例えば処理部110は、
図6や
図7において不図示の終了ボタンが操作されたかを判定してもよい。学習処理を終了しない場合(ステップS113:No)、処理部110はステップS104に戻って処理を継続する。つまり、音声情報取得部111は新たにユーザの音声情報を取得し、解析処理部112は当該音声情報の解析処理を行い、表示処理部113は解析結果に基づいて画像をリアルタイムに更新する。
【0065】
また本実施形態における第1の音とは1つの音であってもよい。例えば表示処理部113は、日本語の「ア」に近い英語の音として、ae, α, Λのうちの何れか1つのみを表示してもよい。このような場合でも、ユーザの母国語の音と、学習対象の言語の音を比較しながら学習を行わせることが可能になるため、ユーザを適切にサポートできる。ただし本実施形態の処理はこれに限定されない。例えば表示処理部113は、第1言語において、第2言語の第2の音に類似する音として、第1の音及び第3の音がある場合に、第3の音を発音する際の発声状態に基づいて特定される第3特徴点、第1特徴点、及び第2特徴点を、互いに識別可能な態様でアニメーション表示に重畳して表示する処理を行ってもよい。第1の音は、例えばae, α, Λのうちの何れか1つであり、第3の音は、例えばae, α, Λのうちの他の何れか1つである。このようにすれば、
図6,
図7を用いて上述したように、第1言語における複数の音を1つの画面にまとめて表示することが可能になる。第1の音に加えて第3の音が存在する場合、ユーザからすれば、自身がよく用いている第2の音に類似する音が第1言語には複数存在することになる。結果として第1言語の学習において第1の音と第3の音の区別がうまくいかず、学習が阻害される可能性がある。その点、本実施形態の手法では第1の音と第3の音の差異を1つの画面上でわかりやすく提示できるため、学習効率の向上が可能になる。
【0066】
2.2 フラッシュカード学習
上述したように、第2の言語に第1の音と第3の音が存在する場合(例えば日本語の「ア」に類似する音として、英語にae, α, Λ等が存在する場合)、第2言語の話者であるユーザにとっては、第1の音と第3の音を区別することが第1言語の学習において重要である。
【0067】
例えば表示処理部113は、第1の音を所定回数以上、ユーザに発声させる指示画面の表示処理を行った後、第3の音を所定回数以上、ユーザに発声させる指示画面の表示処理を行ってもよい。これにより、類似する音をそれぞれ繰り返し発声させることにより、ユーザに音の差異を考慮した学習を促すことが可能になる。
【0068】
図8A、
図8Bは表示処理部113によって表示される画面例であり、例えば端末装置200の表示部240に表示される画面である。例えば学習の第1段階では、表示処理部113は、第1の音、第3の音、第2の音に対応する特徴点を人物の横顔のアニメーション表示に重畳させつつ、第1の音と第3の音の何れか一方を含む単語を繰り返し発声させるための画像を表示してもよい。なお、
図8A及び
図8Bの例では、第1の音は英語のαであり、第3の音は英語のaeであり、第2の音は日本語の「オ」である。
図8A、
図8Bでは、これらに対応する第1特徴点P1、第2特徴点P2、第3特徴点P3を図示している。英語のαは、日本語の「オ」にも類似するため、このような表示も日本語話者による英語学習のサポートに有用である。ただし第1の音~第3の音の組み合わせはこれに限定されず、
図7を用いて上述したように、「ア」、「ae」、「α」、「Λ」の組み合わせ等、他の音の組み合わせが用いられてもよい。
【0069】
また
図8A及び
図8Bに示す画面では、単語「hot」を3回繰り返して発声することを指示するテキストが表示される。単語「hot」は「α」の音を含むため、
図8A、
図8Bに示す画面を用いた学習によりユーザは他の音の混同しやすい「α」の音の発音を習得することが可能になる。
【0070】
図8A及び
図8Bの画面では、上述したように、ユーザの発声状態と何れかの音(第1の音~第3の音)の類似度が閾値以上である場合に、類似度が閾値未満の場合と表示態様を変更する。例えば、
図8A及び
図8Bは、混同しやすい複数の音の発音記号を並べて表示する領域RE1を含んでもよい。表示処理部113は、解析処理部112によってユーザの発音が何れかの音に近いと判定された場合、当該音を示すオブジェクトの表示態様を変更する。
【0071】
さらに
図6及び
図7の例と同様に、ユーザの横顔に対応するアニメーション表示を行う領域RE2において、舌や顎の状態に応じて人物の画像を更新するとともに、リアルタイムでの特徴点が第1特徴点P1や第3特徴点P3に近い場合に、対応する特徴点の表示態様を変更する。
【0072】
また
図8Bに示すように、ユーザの発声状態が学習目標である音(ここでは「α」の音)の発声状態に近いと判定された場合(以下、OK判定とも記載)、表示処理部113は、人物の表情をポジティブな表情に変更してもよい。これにより、ユーザが学習目標である音を適切に発音できているか否かをわかりやすい態様で提示することが可能になる。
【0073】
なお、ユーザの発声状態が学習目標である音の発声状態に近いか否かの正誤判定は、例えば上述した周波数解析を用いた処理(例えば第1特徴点と、リアルタイムでの特徴点との位置関係を用いた判定)とは異なる処理として実行される。なおここでの正誤判定は、OK/NGの2通りの出力をするものである。ただし正誤判定はこれに限定されず、ユーザの発声状態が目標に近いほど高くなる数値データをスコア(例えば0~100点)を出力する処理であってもよい。例えば解析処理部112は、ユーザの音声情報と、「hot」の理想的な発音を表す音声情報との比較処理を行い、類似度をスコアとして算出する処理を行ってもよい。2つの音声情報間の類似度をスコアとして出力する手法は広く知られており、本実施形態ではそれらの従来手法が適用されてもよい。例えば、サーバシステム100とは異なるクラウドサーバにおいて、音声情報の比較処理が行われてもよい。この場合、解析処理部112は、当該クラウドサーバに、ユーザの音声情報と、「hot」の理想的な発音を表す音声情報との比較処理を依頼し、処理結果を取得する。ただし、本実施形態の正誤判定が周波数解析の結果を用いて実行されてもよい。例えば解析処理部112は、目標の音に対応する第1特徴点と、ユーザの発声状態を表すリアルタイムの特徴点との距離に応じてOK/NGやスコアを求めてもよい。
【0074】
処理部110は、
図8A及び
図8Bの画面において所与の回数(例えば3回)だけ連続して、OK判定が行われた場合に、異なる単語の学習に移行する処理を行ってもよい。例えば表示処理部113は、ユーザが「hot」を3回連続で適切に発音できた場合、単語「hut」の学習に移行する。単語「hut」は「Λ」の音を含むため、「hut」を繰り返し発声させる画面を用いた学習によりユーザは他の音と混同しやすい「Λ」の発音を習得することが可能になる。同様に処理部110は、ユーザが所与回数だけ連続して「hut」の発音に成功した場合、単語「hat」の学習に移行する。単語「hat」は「ae」の音を含むため、「hat」を繰り返し発声させる画面を用いた学習によりユーザは他の音と混同しやすい「ae」の発音を習得することが可能になる。なお学習の順序は以上の例に限定されず、「hat」「hut」「hot」が異なる順で学習されてもよい。
【0075】
単語毎の学習である第1段階の学習が完了した場合、処理部110は第2段階の学習として、類似する音を含む複数の単語を素早く発音する学習を行わせる処理を行ってもよい。例えば表示処理部113は、第1の音を含む単語、及び、第3の音を含む単語を含む複数の単語を連続的にユーザに発声させる指示画面を表示する処理を行ってもよい。このようにすれば、区別して発音すべき音が含まれる単語群をユーザに連続的に発声させることができるため、第1の音と第3の音のそれぞれに適した発声を身につけさせることが可能になる。
【0076】
例えば処理部110は、「hat」「hut」「hot」の3つの単語から、同じ単語が2回以上選択されることを許容しつつ、所定回数(例えば10回)だけ単語を選択して並べることによって単語リストを作成する。表示処理部113は、当該単語リストに含まれる単語を順次表示するとともに、表示された単語の発音をユーザに促す表示を行う。このようにすれば、混同しやすい音が含まれる複数の単語をユーザにすばやく発声させることができるため、当該混同しやすい音の適切な発音を習得させることが可能になる。
【0077】
図9は、この場合の処理を説明するフローチャートである。まずステップS201において、端末装置200の操作部250は、学習対象となる英語の音の選択入力を受け付ける。例えば操作部250は、「ae」、「α」、「Λ」の3つの音の選択入力を受け付けてもよい。例えば表示部240は、第2言語の話者が混同しやすい音のリストを表示する処理を行い、操作部250は、当該リストのうちの何れかの選択操作を受け付けてもよい。
【0078】
ステップS202において、処理部110は、ユーザの選択入力に基づいて、発声対象となる単語リストを作成する。上述したように、ここでの単語リストは、混同しやすい複数の音の何れかを含む単語群が所与の順序で並べられたリストである。なおここでの順序は固定であってもよいし、学習ごと(
図9の処理が行われるごと)にランダムで決定されてもよい。
【0079】
ステップS203において、表示処理部113は、端末装置200の表示部240に単語リストの先頭の単語を表示する。
図10Aは、学習の開始段階(例えばステップS202の後、且つS203の前)に表示される画面例である。
図10Aに示す画面は、「次々に表示される単語を発音していこう!」という学習内容を示すテキスト、発音対象となる単語群(Hat, Hut, Hot)、スタートボタン等を含む。例えばユーザがスタートボタンの選択操作を行った場合に、ステップS203の処理が実行される。
【0080】
図10Bは、ステップS203で表示される画面の例である。例えば、
図10Bでは単語リストのうち、未学習(未発音)の単語数が残り6個の状態を示しており、その際の単語として「Hat」が表示される。端末装置200のマイクは録音状態で動作しており、
図10Bの画面を閲覧したユーザが「hat」と発音した場合、ステップS204において、ユーザの音声情報を録音する。サーバシステム100の音声情報取得部111は、当該音声情報をネットワークを介して取得する。
【0081】
ステップS205において、解析処理部112は、音声情報の解析処理を行う。例えば解析処理部112は、ステップS105と同様に、フォルマント等の特徴量を取得し、当該特徴量を学習済モデルに入力することによってユーザの発声状態を特定する。さらに解析処理部112は、ユーザの発声状態と、学習目標である音の発声状態の類似度を判定する。上述したように、類似度判定(正誤判定)は、発声状態を特定する処理とは異なる処理として実行されてもよい。
図10Bの例であれば、解析処理部112は、ユーザの発声状態と「Hat」の発声状態(狭義にはそのうちの「ae」の発声状態)との類似度が閾値以上である場合にOK,そうでない場合にNGと判定する。
【0082】
ステップS206において、表示処理部113は、解析処理部112での解析結果を表示する処理を行う。ここでは例えば
図6-
図8Bと同様に、人物の横顔のアニメーション表示や、リアルタイムでの特徴点の表示、類似度に応じた各特徴点の表示態様の変更等が行われてもよい。ただし、
図10Dを用いて後述するように、解析処理の結果は単語リストの全単語の発音が終わった後にまとめて表示されてもよく、ステップS206の処理は省略されてもよい。また
図10Bの例では、人物については舌や顎の状態に応じたアニメーション表示等が実行されないため、解析処理部112は、発声状態を特定する処理を省略し、類似度判定(正誤判定)のみを実行してもよい。
【0083】
ステップS207において、表示処理部113は、単語リストの全ての処理が完了したかを判定する。ここでの処理とは、対象の単語を表示し、当該表示に対するユーザの発声を音声情報として取得する処理を表す。未処理の単語が残っている場合(ステップS207:No)、表示処理部113は、ステップS203に戻って処理を継続する。
【0084】
例えば表示処理部113は、再度ステップS203の処理を行う場合、単語リスト内の未処理の単語のうち、順序が最も早い単語の表示処理を行う。
図10Cは、
図10Bよりも後に表示部240に表示される画面例である。例えば、
図10Cでは単語リストのうち、未学習(未発音)の単語数が残り3個の状態を示しており、その際の単語として「Hot」が表示される。この場合の処理は、上述したステップS204-S207と同様であり、音声情報の取得処理、解析処理、表示処理(省略可)、完了判定の各処理が実行される。
【0085】
単語リストに含まれる全ての単語の処理が完了した場合(ステップS207:Yes)、ステップS208において、表示処理部113は、学習結果を表示する処理を行う。
図10Dは、ステップS208で表示される画面例である。
【0086】
図10Dの例では、表示処理部113は、「hat」「hut」「hot」の3つの単語の正解率をそれぞれ表示する。ここでの正解率とは、上記類似度判定(正誤判定)の結果から決定される情報である。例えば正解率は、各単語が表示された回数に対する、OK判定の回数の割合を表す。このように、単語毎に正解率を表示することによって、ユーザが類似する音の発音を区別できているか、発音が苦手な音がないか等をわかりやすく提示できる。また表示処理部113は、複数の単語の総合的な正解率を表示してもよい。この場合、
図10Dの例では、日本語の「ア」に類似する英語の音をどの程度正確に発音できているかをユーザに提示することが可能になる。
【0087】
なお、
図10Dに示すように、各単語の正解率と対応付けて、当該単語の復習を行うためのオブジェクト(ボタン)が表示されてもよい。例えば、「hat」に対応するオブジェクトの選択操作が行われた場合、表示処理部113は、
図8A、
図8Bに戻って、「hat」を所定回数繰り返し発声させる表示処理を行ってもよい。このように、学習の第1段階(単語毎の学習)と、第2段階(類似する音を含む複数の単語を組み合わせた学習)を遷移しながら学習を行わせることによって、ユーザの発音能力を適切に開発することが可能になる。特に第2段階では、表示される単語を高速で発音することで、いわゆるフラッシュカードを用いた学習が実行されるため、単語と発音の関係を記憶させやすくすることが可能になる。
【0088】
また、本実施形態の手法では、ユーザに発声させるスピーキング学習に加えて、リスニング学習が行われてもよい。例えば
図8A及び
図8Bに示したように、表示処理部113は、ユーザ自身の発声結果を出力するためのオブジェクトを表示してもよい。
図8Aの例では、表示処理部113は、再生オブジェクトOB1及びOB2を表示する。処理部110(または処理部210)は、再生オブジェクトOB1の選択操作が行われた場合、望ましいhotの発声を表す音声情報(例えば第1言語の話者や第1言語の教育者の音声情報)を出力する。また処理部110は、再生オブジェクトOB2の選択操作が行われた場合、ユーザがhotの発声を行った場合の音声情報を出力する。上述したように、ユーザの音声情報は解析処理用に録音されており、当該音声情報を出力することによって、ユーザに自身の発声を確認させることが可能になる。
【0089】
このようにすれば、人物の横顔のアニメーション表示や特徴点を用いた視覚的な情報に加えて、聴覚的な情報により理想的な発音とユーザの発音を比較できるため、学習効率の向上が可能になる。
【0090】
また表示処理部113は、ユーザの習熟度が低いと判定された場合、第1の音の発音記号として、文字情報を表示する処理を行い、ユーザの習熟度が高いと判定された場合、第1の音の発音記号として、第1の音を発声する際の口の形状を表す画像情報を表示する処理を行ってもよい。
【0091】
図11Aは、発音記号として文字情報が表示される画面例であり、
図11Bは、発音記号として画像情報が表示される画面例である。例えば解析処理部112は、
図8A、
図8Bや
図10A~
図10Dにおいて、ユーザの正解率が所定閾値未満である場合、習熟度が低いと判定する。この場合、ユーザは対象の音を発音する際の発声状態(口腔状態)に対する理解度が低いと考えられる。よって表示処理部113は、広く用いられており、習熟度の低いユーザにとっても分かりやすい文字情報の発音記号を表示する(
図11A)。
【0092】
これに対して、ユーザの正解率が所定閾値上である場合、解析処理部112は、ユーザの習熟度が高いと判定する。この場合、ユーザは発声状態(口腔状態)に対する理解度が高いと考えられるため、表示処理部113は、発声状態を視覚的に表す画像情報の発音記号を表示する(
図11B)。このようにすれば、ユーザに舌や顎の動きをより意識させることが可能になるため、習熟度の更なる向上を促すことが可能になる。
【0093】
2.3 例示
また第2言語の話者であるユーザにとって、第1言語の発音は日常的になじみが薄く、習得が難しい可能性がある。従って本実施形態では、第2言語における日常的な発音をガイドとして、第1言語の学習が行われてもよい。
【0094】
例えば表示処理部113は、第1の音の発声に近い発声状態を用いて発声を行う日常動作を決定し、第1の音を含む単語と関連付けて、日常動作を表示する処理を行ってもよい。このようにすれば、第1言語の発音が日常動作に対応付けられるため、ユーザの理解度を高くすることが可能になる。
【0095】
図12は、この場合の情報処理システム10の処理を説明するフローチャートである。まずステップS301において、端末装置200の操作部250は、学習対象となる英語の音の選択入力を受け付ける。例えば操作部250は、「h」の選択入力を受け付けてもよいし、「h」を含む単語(例えばhat, hut ,hot等)の入力を受け付けてもよい。
【0096】
ステップS302において、処理部110は、ユーザの選択入力に基づいて、発声状態が類似する日常動作を決定する。例えば記憶部120は、第1言語の音と、日常動作を対応付けたテーブルデータを記憶してもよい。処理部110は、ステップS301において選択された第1言語の音(第1の音)とテーブルデータに基づいて、対応する日常動作を決定する。例えば処理部110は、「h」の音に対応する日常動作として、「窓ガラスを磨く前に曇らせる為に息を吹きかける」という動作を決定する。
【0097】
ステップS303において、表示処理部113は、第1の音を含む単語と、日常動作を関連付けて表示する処理を行う。
図13は、第1の音である「h」を含む単語「hat」と、日常動作である窓ガラスを磨く前に曇らせる為に息を吹きかける動作を関連付けて表示する画面の例である。
図13に示す画面は、日常動作を表す画像を表示することによって、第1の音の発音に適した発声状態をユーザに示唆することが可能である。
【0098】
ステップS304において、端末装置200のマイクはユーザの音声情報を録音する。サーバシステム100の音声情報取得部111は、当該音声情報をネットワークを介して取得する。
【0099】
ステップS305において、解析処理部112は、音声情報に基づく正誤判定を行う。例えば解析処理部112は、上述したように、周波数解析とは異なる手法により、OK/NGの判定あるいはスコアの算出を行う。また上述したように、これらの処理はサーバシステム100とは異なるサーバで実行されてもよい。またステップS305において、解析処理部112は、ステップS105と同様に、周波数解析を含む処理を行ってもよい。例えば解析処理部112は、フォルマント等の特徴量を取得し、当該特徴量を学習済モデルに入力することによってユーザの発声状態を特定する。さらに解析処理部112は、ユーザの発声状態と、学習目標である音の発声状態の類似度を判定する。
図13の例であれば、解析処理部112は、ユーザの発声状態と「hot」の発声状態(狭義にはそのうちの「h」の発声状態)との類似度が閾値以上である場合にOKと判定し、類似度が閾値未満である場合にNGと判定する。
【0100】
ステップS306において、表示処理部113は、解析処理部112での処理結果を表示する処理を行う。例えば表示処理部113は、正誤判定の結果であるOK/NGに関する判定結果や類似度を表すスコアを表示する。またステップS305において周波数解析が行われている場合であれば、表示処理部114は、
図6-
図8Bと同様に、人物の横顔のアニメーション表示や、リアルタイムでの特徴点の表示、類似度に応じた表示態様の変更等をおこなってもよい。
【0101】
ステップS307において、表示処理部113は、ステップS301で選択された音の学習処理を終了するかを判定する。例えば端末装置200の操作部250がユーザによる終了操作を受け付けた場合に、表示処理部113は学習処理を終了すると判定する。学習処理を終了しない場合(ステップS307:No)、表示処理部113は、ステップS303に戻って処理を継続する。学習処理を終了する場合(ステップS307:Yes)、
図12に示す処理が終了する。
【0102】
また表示処理部113によるガイド表示は、日常動作を用いたものには限定されない。例えば表示処理部113は、第1の音の発声に近い発声状態を含む第2言語の単語である類似発声語を決定し、第1の音を含む単語と関連付けて、類似発声語を表示する処理を行ってもよい。
【0103】
例えば「sh」の音は、日本語において蒸気機関車の走行音として用いられる擬態語の発音に近いと考えられる。従って、表示処理部113は、このような擬態語を類似発声語として「sh」を含む英単語とともに表示することによって、「sh」の発声の習得をサポートできる。例えば表示処理部114は、「sh」を含む単語と、蒸気機関車の画像、及び、当該蒸気機関車の画像に合わせた日本語での擬態語を関連付けて表示する処理を行ってもよい。あるいは「s」の音は日本語における「スイカ」の先頭部分に近いと考えられる。従って、表示処理部113は、「s」を含む英単語に関連付けて、「スイカ」を類似発声語として表示することによって、「s」の発声の習得をサポートできる。
【0104】
図14は、この場合の情報処理システム10の処理を説明するフローチャートである。まずステップS401において、端末装置200の操作部250は、学習対象となる英語の音の選択入力を受け付ける。例えば操作部250は、「sh」や「s」の選択入力を受け付けてもよい。
【0105】
ステップS402において、処理部110は、ユーザの選択入力に基づいて、第2言語において発声状態が類似する類似発声語を決定する。例えば記憶部120は、第1言語の音と、類似発声語を対応付けたテーブルデータを記憶してもよい。処理部110は、ステップS401において選択された第1言語の音(第1の音)とテーブルデータに基づいて、対応する類似発声語を決定する。なお、テーブルデータは、第1言語の音に対して、日常動作または類似発声語が対応付けられたデータであってもよい。この場合、
図12のステップS302に示す処理と
図14のステップS402に示す処理を共通化することが可能である。
【0106】
ステップS403において、表示処理部113は、第1の音を含む単語と、類似発声語を関連付けて表示する処理を行う。ステップS404において、端末装置200のマイクはユーザの音声情報を録音する。サーバシステム100の音声情報取得部111は、当該音声情報をネットワークを介して取得する。
【0107】
ステップS405において、解析処理部112は、音声情報に基づく正誤判定を行う。ステップS406において、表示処理部113は、解析処理部112での処理結果を表示する処理を行う。
【0108】
ステップS407において、表示処理部113は、ステップS401で選択された音の学習処理を終了するかを判定する。学習処理を終了しない場合(ステップS407:No)、表示処理部113は、ステップS403に戻って処理を継続する。学習処理を終了する場合(ステップS407:Yes)、
図15に示す処理が終了する。
【0109】
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理システム、サーバシステム、端末装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0110】
10…情報処理システム、100…サーバシステム、110…処理部、111…音声情報取得部、112…解析処理部、113…表示処理部、120…記憶部、130…通信部、200…端末装置、210…処理部、220…記憶部、230…通信部、240…表示部、250…操作部、OB1,OB2…再生オブジェクト、P…リアルタイムの特徴点、P1…第1特徴点、P2…第2特徴点、P3…第3特徴点、RE1,RE2…領域