IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ECCの特許一覧

特許7195593語学学習用装置および語学学習用プログラム
<>
  • 特許-語学学習用装置および語学学習用プログラム 図1
  • 特許-語学学習用装置および語学学習用プログラム 図2
  • 特許-語学学習用装置および語学学習用プログラム 図3
  • 特許-語学学習用装置および語学学習用プログラム 図4
  • 特許-語学学習用装置および語学学習用プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-16
(45)【発行日】2022-12-26
(54)【発明の名称】語学学習用装置および語学学習用プログラム
(51)【国際特許分類】
   G10L 15/00 20130101AFI20221219BHJP
   G10L 15/06 20130101ALI20221219BHJP
   G09B 19/06 20060101ALI20221219BHJP
【FI】
G10L15/00 200E
G10L15/06 300E
G09B19/06
【請求項の数】 6
(21)【出願番号】P 2018233475
(22)【出願日】2018-12-13
(65)【公開番号】P2020095176
(43)【公開日】2020-06-18
【審査請求日】2021-12-08
(73)【特許権者】
【識別番号】397020146
【氏名又は名称】株式会社ECC
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】木村 光成
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2005-99376(JP,A)
【文献】特開2015-184285(JP,A)
【文献】特開2010-169973(JP,A)
【文献】特開2012-215645(JP,A)
【文献】米国特許第5487671(US,A)
【文献】米国特許出願公開第2018/0190269(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G09B 19/06
(57)【特許請求の範囲】
【請求項1】
第1言語を母国語とするユーザが第2言語を学習するための語学学習用装置であって、
前記ユーザが発した音声を音素データに変換する音素変換部と、
前記第2言語の文字データと音素データとが対応付けられた辞書データを検索して、前記音素変換部によって変換された音素データを前記第2言語の文字データに変換する文字変換部とを備え、
前記音素変換部が変換可能な音素データには、前記第1言語のネイティブスピーカーが使用する第1音素と、前記第2言語のネイティブスピーカーが使用する第2音素とが含まれ、
前記辞書データでは、1つの文字データに、前記第1音素のみからなる音素データ、前記第2音素のみからなる音素データ、および、前記第1音素と前記第2音素との両方を含む音素データが対応付けられていることを特徴とする、語学学習用装置。
【請求項2】
前記文字変換部による前記辞書データの検索範囲を制限する検索範囲制限部をさらに備えることを特徴とする、請求項1に記載の語学学習用装置。
【請求項3】
前記検索範囲制限部は、前記ユーザの前記第1言語の習熟度に応じて前記検索範囲を決定することを特徴とする、請求項2に記載の語学学習用装置。
【請求項4】
前記検索範囲制限部は、前記ユーザが会話を行う場面に応じて前記検索範囲を決定することを特徴とする、請求項2または3に記載の語学学習用装置。
【請求項5】
前記検索範囲制限部は、前記ユーザの発話傾向に応じて前記検索範囲を決定することを特徴とする、請求項2から4のいずれかに記載の語学学習用装置。
【請求項6】
請求項1~5のいずれかに記載の語学学習用装置の各部としてコンピュータを機能させる語学学習用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第1言語(例えば日本語)を母国語とするユーザが第2言語(例えば英語)を学習するための語学学習用装置および語学学習用プログラムに関する。
【背景技術】
【0002】
外国語会話を習得するためには、多くの対話練習が必要となる。近年、英会話講師との会話を通じた対話練習に代わる手段として、コンピュータを用いた語学学習システムが開発されている。
【0003】
このような語学学習システムにおいて、コンピュータは母語ではない音声を認識する必要がある。たとえば、日本人が英語を学習するための語学学習システムでは、コンピュータは、日本語音素の英語(いわゆるジャパニーズイングリッシュ)を認識する必要がある。これに対し、特許文献1では、男女30人の日本人がそれぞれ8時間かけて録音した「日本人発音モデル」をベースに、日本人特有の発音(音素の組み合わせ)を認識できる技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2012-215645号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
学習者は、対話練習を重ねることで、段階的に学習対象言語の音素が含まれた発話をすることができるようになる。例えば、日本人の初心者の英語発話は、英語を母語とする者の音素(英語音素)が少なく、日本語音素が多く含まれるが、習熟度が上がると英語音素が増加する傾向にある。しかし、英語を母語としない学習者が完全に、英語音素で発話することは困難であり、また、音素により、英語音素に近い発音の習得がしやすい音、しにくい音が異なるため、英語音素と日本語音素が混在した形となる。そのような学習者の音声をコンピュータによって正確に認識することは、特許文献1に記載の技術では困難である。
【0006】
本発明は、上記問題を解決するためになされたものであって、習得途上の語学学習者の音声を認識できる語学学習用装置を提供することを課題とする。
【課題を解決するための手段】
【0007】
本発明に係る語学学習用装置は、第1言語を母国語とするユーザが第2言語を学習するための語学学習用装置であって、前記ユーザが発した音声を音素データに変換する音素変換部と、前記第2言語の文字データと音素データとが対応付けられた辞書データを検索して、前記音素変換部によって変換された音素データを前記第2言語の文字データに変換する文字変換部とを備え、前記音素変換部が変換可能な音素データには、前記第1言語のネイティブスピーカーが使用する第1音素と、前記第2言語のネイティブスピーカーが使用する第2音素とが含まれ、前記辞書データでは、1つの文字データに、前記第1音素のみからなる音素データ、前記第2音素のみからなる音素データ、および、前記第1音素と前記第2音素との両方を含む音素データが対応付けられていることを特徴とする。
【0008】
本発明に係る語学学習用装置は、前記文字変換部による前記辞書データの検索範囲を制限する検索範囲制限部をさらに備えることが好ましい。
【0009】
本発明に係る語学学習用装置では、前記検索範囲制限部は、前記ユーザの前記第1言語の習熟度に応じて前記検索範囲を決定してもよい。
【0010】
本発明に係る語学学習用装置では、前記検索範囲制限部は、前記ユーザが会話を行う場面に応じて前記検索範囲を決定してもよい。
【0011】
本発明に係る語学学習用装置では、前記検索範囲制限部は、前記ユーザの発話傾向に応じて前記検索範囲を決定してもよい。
【0012】
本発明に係る語学学習用プログラムは、上記いずれかの語学学習用装置の各部としてコンピュータを機能させる。
【発明の効果】
【0013】
本発明によれば、習得途上の語学学習者の音声を認識することができる。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態に係る語学学習用装置の構成を示すブロック図である。
図2】音素変換部の作成方法を説明するための図である。
図3】辞書データの一部を示す図である。
図4】辞書データの一部を示す図である。
図5】辞書データの一部を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について添付図面を参照して説明する。なお、本発明は、下記の実施形態に限定されるものではない。
【0016】
(全体構成)
図1は、本発明の一実施形態に係る語学学習用装置1の構成を示すブロック図である。語学学習用装置1は、スマートフォンや汎用のパーソナルコンピュータによって構成することができる。本実施形態では、語学学習用装置1はスマートフォンによって構成されるものとする。
【0017】
語学学習用装置1は、第1言語を母国語とするユーザが第2言語を学習するために用いられる。本実施形態では、第1言語は日本語であり、第2言語は英語であるが、本発明はこれに限定されない。
【0018】
図1に示すように、語学学習用装置1は、ストレージ2、制御部3、表示部4、入力部5、マイク6およびスピーカ7を主に備えている。
【0019】
ストレージ2は、語学学習用装置1の演算処理に用いられる各種プログラムやデータを格納する部材であり、例えばフラッシュメモリで構成することができる。
【0020】
制御部3は、語学学習用装置1のCPU(図示せず)が、ストレージ2に格納された語学学習用プログラム(アプリケーション)をメインメモリ(図示せず)に読み出して実行することにより実現される機能ブロックである。語学学習用プログラムは、ネットワークを介して語学学習用装置1にインストールしてもよい。あるいは、語学学習用プログラムを記録したSDカード等の、コンピュータ読み取り可能な非一時的な有体の記録媒体を語学学習用装置1に読み取らせることにより、語学学習用プログラムを語学学習用装置1にインストールしてもよい。
【0021】
制御部3は、音素変換部31、文字変換部32、判定部33、フィードバック部34および検索範囲制限部35を主に備えている。これらの機能ブロックの機能については、後述する。
【0022】
表示部4は、例えば液晶ディスプレイで構成することができる。入力部5は、ユーザからの操作の入力を受け付ける装置であり、例えばタッチパネルで構成することができる。マイク6およびスピーカ7は、語学学習用装置1に内蔵されてもよいし、外付けであってもよい。
【0023】
(制御部)
続いて、制御部3の機能について説明する。
【0024】
音素変換部31は、ユーザが発した音声を音素データに変換する機能ブロックである。本実施形態では、ユーザが発した音声は、マイク6においてアナログ音声信号に変換され、さらに図示しないAD変換器によってデジタル音声信号に変換され、音素変換部31に入力される。音素変換部31は、機械学習された学習済みモデルによって実現されており、デジタル音声信号を分節して、分節された各音声信号を音素データに変換する。
【0025】
音素は、言語の変種や音韻理論によって多少の差異が存在するが、一般には、日本語には24の音素(5母音+16子音+3特殊音素)があり、英語には44の音素(20母音+24子音)がある。機械学習にあたっては、日本語音素(第1音素)については、複数の日本人から英語訛りのない音声データを採取し、英語音素(第2音素)については、複数の英語のネイティブスピーカーから音声データを採取し、図2に示すように、各音素と音声波形とを対応付けた学習用データセットを作成する。この学習用データセットに基づき、例えばディープラーニングなどの機械学習を行うことにより音素変換部31を作成する。
【0026】
これにより、音素変換部31は、ユーザが発した音声を、日本語音素と、英語音素とを含む音素データに変換可能となる。すなわち、音素変換部31が変換可能な音素データには、日本語音素と英語音素とが含まれ、音素変換部31は、日本語音素と英語音素とを区別してユーザが発した音声を音素データに変換する。例えば、「apple」という単語の「a」の部分について、英語のネイティブスピーカーの発音に対しては、発音記号
に相当する英語音素(アとエの中間程度の音素)に変換され、日本語のネイティブスピーカーの発音に対しては、「a」(ア)に相当する日本語音素に変換される。
【0027】
なお、以下の説明では、便宜上、英語音素を大文字で表記し、日本語音素を小文字で表記する。例えば、「apple」における「a」の音素について、アとエの中間程度の音素に対応する英語音素を「A」と表記し、日本語音素は「a」と表記する。
【0028】
文字変換部32は、英語の文字データと音素データとが対応付けられた辞書データDを検索して、音素変換部31によって変換された音素データを英語の文字データに変換する機能ブロックである。図1に示すように、辞書データDは、ストレージ2に格納されているが、語学学習用装置1と通信可能に接続された他の装置(サーバなど)に格納されてもよい。通常の辞書データとは異なり、辞書データDでは、1つの文字データに、日本語音素(第1音素)のみからなる音素データ、英語音素(第2音素)のみからなる音素データ、および、日本語音素と英語音素との両方を含む音素データ(以下、混合音素データと称する)が対応付けられている。
【0029】
例えば、図3に示すように、「cake」という単語には、英語音素のみからなる音素データ(KEYK)、日本語音素のみからなる音素データ(ke:ki)、および、混合音素データ(KEYku)が対応付けられている。また、「rice」という単語には、英語音素のみからなる音素データ(RAIS)、日本語音素のみからなる音素データ(raisu)および、混合音素データ(raiS)が対応付けられている。
【0030】
なお、図3に示す例では、混合音素データは1つのみであるが、複数であってもよい。一般には、単語の文字数が多くなるほど、日本語音素と英語音素との組み合わせが多くなるが、語学学習者の発音は、音素毎に、発音しやすいもの、発音しにくいものがあり、習熟度や、発話者の意識状態により、英語音素の出現率は変化する。単語単位で見た場合、日本人の英語発話に関しては、習熟度にも影響するが、単語ごとに日本語音素と英語音素とが混ざり合うパターンは限定されている。そのため、含まれる音素内容によるが、混合音素データは、理論上の全てのパターンを用意する必要はなく、発音されやすい1~数パターンを用意すればよい。これにより、文字数による影響をさほど受けずに辞書データDのデータ量を少なくすることができる。
【0031】
辞書データDをこのように構成することで、文字変換部32は、音素変換部31から入力された音素データに、日本語音素と英語音素との両方が入り混じっていた場合であっても、混合音素データから該当するものを選択することにより、音素データを文字データに変換することができる。そのため、英語のネイティブスピーカーの発音、および、英語学習の初心者の発音だけでなく、英語音素と日本語音素が混在した習得途上の語学学習者の音声も、正確に認識することができる。
【0032】
判定部33は、ユーザの発話内容および発音が適切か否かを判定する機能ブロックである。具体的には、判定部33は、文字変換部32によって変換された文字データから、英語の文章を構築し、構築された文章からユーザの発話内容の適否を判定する。また、判定部33は、文字変換部32による辞書データDの検索処理に基づき、ユーザの発音の習熟度を判定する。より具体的には、判定部33は、ユーザが発した単語ごとに、文字変換部32が日本語音素のみからなる音素データ、英語音素のみからなる音素データ、および、混合音素データのいずれを選択して文字データに変換したかに基づき、ユーザの発音が英語寄り(ネイティブスピーカー)か、日本語寄り(初心者)か、それらの中間(中上級者)かを判定する。
【0033】
フィードバック部34は、ユーザの発話が適切でないと判定された場合に、その旨をユーザにフィードバックする機能ブロックである。例えば、ユーザが、語学学習用アプリケーションにおいて仮想のキャラクターと対話練習をしている場合、判定部33が、ユーザの発話に誤った単語や文章が含まれていると判定すると、フィードバック部34は、誤った発話に対して、対話キャラクターが、意味が分からない、または、異なる意味として認識したように振舞うように表示部4に表示する。さらに、フィードバック部34は、ユーザの発話が適切でないと判定された場合、ユーザの習熟度を示す習熟度スコアを減点する。
【0034】
また、判定部33は、シチュエーションや対話の相手などに応じて、ユーザの言葉遣いが適切であるかを判定し、言葉遣いが誤りではないが不適切な場合も、ユーザの発話が適切でないと判定するようにしてもよい。その場合、対話が不適切であることをユーザが理解できるように、フィードバック部34は、キャラクターがマイナスの印象を受けたように振る舞うように表示する。
【0035】
例えば、どうしたのか相手に確認したい場合の発話として、下記のa)およびb)が考えられる。
a) What's your problem?
b) What's wrong? / What happened? / What's the problem?
a)およびb)は、どちらも意味は通じるが、a)は相手の心境的な問題となり、乱暴な表現で相手には強い不快感を与える。一方、b)は事実のみを確認する通常のやり取りである。そのため、ユーザがa)を発話した場合、フィードバック部34は、キャラクターがマイナスの印象を受けたように振る舞うように表示するとともに、ユーザの習熟度スコアを減点する。
【0036】
また、安倍首相を知っていることを伝える場合の発話として、下記のc)およびd)が考えられる。
c) I know Prime Minister Abe.
d) I know of Prime Minister Abe.
c)およびd)は、どちらも意味は通じるが、c)は、個人的に知っている意味となり、d)は情報として知っている意味となる。
【0037】
このような対話の適否は相手との関係に依存するが、ユーザが安倍首相と友人関係などではなく、一方的に知っている相手であるにもかかわらずc)を発話した場合は、相手に誤解を与えることとなるため、フィードバック部34は、キャラクターが想定外の印象を受けたように振る舞うように表示するとともに、ユーザの習熟度スコアを減点する。
【0038】
また、上記の例において、ユーザがa)またはc)を発話した場合、フィードバック部34は、ユーザの発話が不適切である理由をキャラクターなどに解説させるようにしてもよい。
【0039】
判定部33およびフィードバック部34にこのような機能を持たせることにより、文法的に間違いではないが、ニュアンスが異なったり、シチュエーションによっては相手を不快にさせたりする発話を是正することができる。
【0040】
検索範囲制限部35は、文字変換部32による辞書データDの検索範囲を制限する機能ブロックである。辞書データDの検索範囲を制限することにより、文字変換部32による検索処理量を減らすことができるため、文字変換の速度を向上させることができる。
【0041】
本実施形態では、検索範囲制限部35は、ユーザの英語の習熟度、ユーザが会話を行う場面、および、ユーザの発話傾向の少なくともいずれかに応じて、辞書データDの検索範囲を決定する。この機能を実現するため、検索範囲制限部35は、習熟度把握部351と、場面特定部352と、発話傾向把握部353とを備えている。
【0042】
習熟度把握部351は、ユーザの英語の習熟度を把握する機能ブロックである。習熟度把握部351は、判定部33の判定結果に応じて、上述の習熟度スコアを更新し、習熟度スコアに基づき、ユーザの英語の習熟度を把握する。
【0043】
場面特定部352は、ユーザと仮想のキャラクターとの対話の背景となっている場面を特定する機能ブロックである。本実施形態では、ユーザは対話練習に先立って、対話練習の背景となる所望の場面を選択することができ、場面特定部352は、ユーザの選択操作に基づいて、対話の背景となっている場面を特定する。
【0044】
あるいは、場面特定部352は、対話の流れに沿って場面を特定してもよい。例えば、ユーザおよびキャラクターが用いた用語に、話題に関するキーワードが含まれているか否かに基づいて、場面を特定してもよい。
【0045】
発話傾向把握部353は、ユーザが用いる頻度の高い頻出用語を把握する機能ブロックである。本実施形態では、発話傾向把握部353は、これまでのユーザの対話練習の記録に基づき頻出用語を把握している。
【0046】
また、辞書データDは、会話の場面(会話シーン、シチュエーション)に基づいて分類された複数の小辞書から構成されている。図3図5はそれぞれ、小辞書の一例を示している。図3に示す小辞書D1では、主に食事の場面に用いられる用語とその音素とが対応付けられている。図4に示す小辞書D2では、主に動植物に関する会話に用いられる用語とその音素とが対応付けられている。図5に示す小辞書D3では、特定の場面に限定されない、あらゆる会話に用いられる用語とその音素とが対応付けられている(以下、汎用小辞書D3とも称する)。
【0047】
なお、本実施形態における小辞書の分類方法は一例であり、特に限定されない。例えば、ユーザの習得レベルやユーザの使用頻度に応じて小辞書を分類してもよい。
【0048】
検索範囲制限部35は、辞書データDにおける複数の小辞書から、検索に用いる小辞書を選択することにより、文字変換部32による辞書データDの検索範囲を決定する。例えば、ユーザの習熟度が低く、会話を行う場面が食事の場面である場合、検索範囲制限部35は、食事の場面に対応する小辞書D1および汎用小辞書D3を選択して、これらの小辞書D1,D3のみを検索範囲として決定する。
【0049】
これにより、例えば図4に示す小辞書D2の「lice」(louse(蛆)の複数形)は、検索対象から除外されるため、文字変換部32の検索処理量が軽減される。なお、ユーザの発話の音素が「rice」よりも「lice」に近い場合であっても、文字変換部32は、「rice」に変換することになるが、「lice」は、食事の場面で使用される可能性は低く、上級者向けの単語であるため、初心者が用いることはほとんどない。また、一般に初心者は、「l(エル)」の発音よりも「r」の発音を苦手とするため、辞書データDの検索範囲を制限しない場合、初心者が「rice」を意図して発話しても「lice」に変換されてしまう可能性が高くなるが、本実施形態では、このような意図しない変換を防止することができる。
【0050】
一方、ユーザの習熟度が高い場合は、検索範囲制限部35は、辞書データDからより多くの小辞書を選択して、選択した小辞書を検索範囲として決定する。
【0051】
また、場面特定部352が対話の流れに沿って場面を特定する場合、検索範囲制限部35は、発話単位ごとに、検索範囲となる小辞書を選択してもよい。これにより例えば、同じシチュエーション内では起こりえるが、質問に対しては起こりえない発話を誤認識することを防止でき、意図した文字データへ変換する精度を向上できる。
【0052】
また、ユーザの発話傾向に応じて検索範囲を制限する場合、ユーザの使用頻度に応じて小辞書を分類しておき、使用頻度の高い用語からなる小辞書を優先的に検索対象としてもよい。
【0053】
また、辞書データDは、文字データへの変換対象としない音素データを含んでもよい。例えば、ユーザの母語での独り言やフィラー(「ええっと」、「なんだっけ?」など)に対応する音素データ(eetto、nanndakke)を辞書データDに含めることにより、文字変換部32は、そのような音素が入力された場合であっても、文字データには変換しない。これにより、発話の可能性の高い発話内容のみを認識対象とすることができる。
【0054】
(付記事項)
本発明は上記の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態に開示された技術的手段を適宜組み合わせて得られる形態も本発明の技術的範囲に含まれる。
【0055】
例えば、上記の実施形態では、制御部3の全ての機能を語学学習用装置1のCPUによって実現していたが、制御部3の機能の一部をサーバなどの他の装置によって実現してもよい。この場合、本発明に係る語学学習用装置は、サーバと協働したシステムとして提供される。
【0056】
また、上記の実施形態では、辞書データにおいて音素データと対応付けられている「1つの文字データ」は、原則として1つの単語であるが、本発明はこれに限定されない。例えば、図5に示す小辞書D3における「have you」のように複数の単語からなる語句や、1つの単語において音素を構成する単位も、特許請求の範囲に記載の「1つの文字データ」の範疇に含まれる。
【符号の説明】
【0057】
1 語学学習用装置
2 ストレージ
3 制御部
4 表示部
5 入力部
6 マイク
7 スピーカ
31 音素変換部
32 文字変換部
33 判定部
34 フィードバック部
35 検索範囲制限部
351 習熟度把握部
352 場面特定部
353 発話傾向把握部
D 辞書データ
D1 小辞書
D2 小辞書
D3 小辞書
図1
図2
図3
図4
図5