特開2021-135312(P2021-135312A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ジョイズ株式会社の特許一覧

特開2021-135312情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
<>
  • 特開2021135312-情報処理装置、情報処理方法、情報処理システム、情報処理プログラム 図000003
  • 特開2021135312-情報処理装置、情報処理方法、情報処理システム、情報処理プログラム 図000004
  • 特開2021135312-情報処理装置、情報処理方法、情報処理システム、情報処理プログラム 図000005
  • 特開2021135312-情報処理装置、情報処理方法、情報処理システム、情報処理プログラム 図000006
  • 特開2021135312-情報処理装置、情報処理方法、情報処理システム、情報処理プログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2021-135312(P2021-135312A)
(43)【公開日】2021年9月13日
(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
(51)【国際特許分類】
   G09B 19/06 20060101AFI20210816BHJP
   G10L 15/06 20130101ALI20210816BHJP
   G09B 7/04 20060101ALI20210816BHJP
【FI】
   G09B19/06
   G10L15/06 500Z
   G09B7/04
【審査請求】有
【請求項の数】13
【出願形態】OL
【全頁数】16
(21)【出願番号】特願2020-28852(P2020-28852)
(22)【出願日】2020年2月21日
(71)【出願人】
【識別番号】516065113
【氏名又は名称】ジョイズ株式会社
(74)【代理人】
【識別番号】230122390
【弁護士】
【氏名又は名称】石原 一樹
(72)【発明者】
【氏名】柿原 祥之
(72)【発明者】
【氏名】チャールズ ハッソン
(72)【発明者】
【氏名】久保 卓也
【テーマコード(参考)】
2C028
【Fターム(参考)】
2C028AA03
2C028BA01
2C028BB04
2C028BC01
(57)【要約】
【課題】利便性の高い学習システムを提供する。
【解決手段】語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部と、を有し、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とする学習システムが提供される。
【選択図】図1
【特許請求の範囲】
【請求項1】
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とする学習システム。
【請求項2】
前記ユーザに関する情報は、ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とする請求項1に記載の学習システム。
【請求項3】
前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶することを特徴とする請求項2に記載の学習システム。
【請求項4】
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うことを特徴とする請求項3に記載の学習システム。
【請求項5】
前記テストは、選択式又は筆記式のテストであり、
前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項3に記載の学習システム。
【請求項6】
前記テストは、ユーザによる発声が伴うテストであり
前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項2に記載の学習システム。
【請求項7】
前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、
前記音響モデル記憶部の中から音響モデルを選択する音響モデル選択部を有し、
前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択することを特徴とする請求項4に記載の学習システム。
【請求項8】
前記言語モデルは、前記テストの結果により作成されたものであることを特徴とする請求項4に記載の学習システム。
【請求項9】
前記テストの結果により前記ユーザの語彙力を判定する語彙力判定部を有し、
前記音声認識部は、前記ユーザの語彙力に対応する単語に関して音声認識を行う請求項3に記載の学習システム。
【請求項10】
前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、
前記音声認識部は、前記ユーザの文法力に対応する単語に関して音声認識を行う請求項3に記載の学習システム。
【請求項11】
前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行う請求項3に記載の学習システム。
【請求項12】
前記ユーザに関する情報には、固有名詞が含まれ、
前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、
前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識する請求項1に記載の学習システム。
【請求項13】
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるプログラムであって、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、情報処理システム、情報処理プログラムに関する。特に、語学学習における(音声認識が可能な)学習装置、学習装置を用いたユーザに学習をさせる方法、学習システム、学習プログラムに関する。
【背景技術】
【0002】
従来、人が話した言葉を文字として書き起こす技術として、単語等の言語表現の要素の列の条件付(出現)確率を表す言語モデルを用いて、入力音声に含まれる最尤の言語表現列(単語列等)を認識結果とする音声認識技術が知られている。この音声認識技術では、音声認識の精度を向上するために、話題の分野にそれぞれ対応する言語モデルを使用して入力音声を音声認識処理するよう言語モデルを切り替える従来技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2013−50605号公報
【特許文献2】特表2014−521158号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本件発明者は、上記従来技術の存在を前提とし、語学学習における音声認識処理を可能とするより利便性の高い情報処理装置、情報処理方法、情報処理システム、情報処理プログラムが求められることを認識し、本件発明に至ったものである。
【課題を解決するための手段】
【0005】
本発明の一実施形態においては、語学学習を行うユーザ(たとえば、学習者)に関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部とを有し、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とする情報処理システム、ないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムが提供される。たとえば、情報処理システムは学習システムである。また、情報処理装置において、上記したユーザ情報記憶部と音響モデル記憶部と言語モデル記憶部と音声認識部とが含まれていてもよい。
【0006】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザに関する情報に応じ、(音響モデルおよび言語モデルの少なくともいずれかを適用した)音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0007】
本発明の一実施形態においては、前記ユーザに関する情報は、ユーザによる語学学習に関するデータである語学学習データであるとともに、前記語学学習データを記憶する語学学習データ記憶部を有し、前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うものであってもよい。
【0008】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、語学学習データ(ユーザによる語学学習に関するデータ)に基づいた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0009】
本発明の一実施形態においては、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するものであってもよい。
【0010】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、語学力を測定するためのテストの結果(つまり、語学力)に基づいた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0011】
本発明の一実施形態においては、前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うものであってもよい。
【0012】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、語学学習データを用い、音響モデルおよび言語モデルの両者を適用した音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0013】
本発明の一実施形態においては、前記テストは、選択式又は筆記式のテストであり、前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶するものであってもよい。
【0014】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、選択式又は筆記式のテストによって得られたデータを用いた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0015】
本発明の一実施形態においては、前記テストは、ユーザによる発声を伴うテストであり前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶するものであってもよい。
【0016】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、発声を伴うテストによって得られたデータを用いた音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0017】
本発明の一実施形態においては、前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、前記音響モデル記憶部の中から音響モデルを選択する音響モデル選択部を有し、前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択するものであってもよい。
【0018】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、音響モデル選択においてテストの結果を用いることを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0019】
本発明の一実施形態においては、前記言語モデルは、前記テストの結果により作成されたものであってもよい。
【0020】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、言語モデルをテストの結果により作成することを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0021】
本発明の一実施形態においては、前記テストの結果により前記ユーザの語彙力を判定する語彙力判定部を有し、前記音声認識部は、前記ユーザの語彙力に対応する単語に関して音声認識を行うものであってもよい。
【0022】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザの語彙力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0023】
本発明の一実施形態においては、前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、前記音声認識部は、前記ユーザの文法力に対応する単語に関して音声認識を行うものであってもよい。
【0024】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザの文法力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0025】
本発明の一実施形態においては、前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行うものであってもよい。
【0026】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、ユーザの語学力に対応する単語に関して音声認識を行うことを可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0027】
本発明の一実施形態においては、前記ユーザに関する情報には、固有名詞が含まれ、前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識するものであってもよい。
【0028】
上記構成を備える情報処理システムないし、当該システムを実現する情報処理装置、情報処理装置に基づく各ステップ(すなわち、情報処理方法)、およびそれを実現する情報処理プログラムにより、固有名詞と音声認識した音声との一致度に基づいた認識を可能とし、以て利便性の向上した学習システム等の提供を可能とすることができる。
【0029】
本発明の一実施形態においては、学習システムのコンピュータを、語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、音響モデルを記憶する音響モデル記憶部と、言語モデルを記憶する言語モデル記憶部と、音声を認識する音声認識部として機能させるプログラムであって、前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うことを特徴とするプログラムが提供される。
【0030】
上記構成を備える情報処理プログラムにより、ユーザに関する情報に応じ、(音響モデルおよび言語モデルの少なくともいずれかを適用した)音声認識を行うことを可能とし、以て利便性の向上した学習プログラム(たとえば、学習アプリ)の提供を可能とすることができる。
【発明の効果】
【0031】
本発明の一実施形態によれば、利便性の高い学習システムないし、当該システムを実現する学習装置、学習装置等によってユーザに学習をさせる方法、およびそれを実現する学習プログラム(学習アプリ等)を提供することが可能となる。
【図面の簡単な説明】
【0032】
図1図1は、一実施形態に係る学習システムの構成の一例を示す図である。
図2図2は、サーバ3の構成の一例を示す図である。
図3図3は、端末装置5の構成の一例を示す図である。
図4図4は、本発明の一実施形態に係る語学学習を行うユーザに関する情報を用いた推定を説明するための図である。
図5図5は、サーバ3の記憶部33の構成の一例を示す図である。
【発明を実施するための形態】
【0033】
[基本的構成]
本発明の実施形態に係るハードウェアおよびソフトウェアの基本的な構成を説明する。まず、図1に示すように、情報処理システム1は、サーバ3と、端末装置5(たとえば、端末5a、端末5b)とを有している。サーバ3と端末装置5とは、インターネット等のネットワーク4を介して互いに通信可能に接続されている。ネットワーク4は、有線回線と無線回線のいずれでもよく、回線の種類や形態は問わない。なお、サーバ3と端末装置5の少なくとも一部は、コンピュータにより実現される。なお、本実施形態において開示される内容は、サーバ3と端末装置5とに分離せずに、1つの端末装置において実現されてもよい。また、サーバ3の機能は、複数のサーバによって実現されていてもよい。もっとも、以下では便宜上、本件システムの基本部分をサーバ3において実現するための形態を開示するものとする。
【0034】
[サーバ3の構成]
まず、サーバ3の構成を説明する。図2は、サーバ3の構成の一例を示す図である。図2に示すように、サーバ3は、たとえばクラウド型のサーバであり、サーバ通信部31と、サーバ制御部32と、サーバ記憶部33とを有している。各部は、バスやネットワークを介して互いに通信可能に接続されている。
【0035】
このうちサーバ通信部31は、サーバ3とネットワーク4との間の通信インターフェースである。サーバ通信部31は、ネットワーク4を介して端末装置5とサーバ3との間で情報を送受信する。
【0036】
サーバ記憶部33は、たとえばハードディスク等の固定型データストレージである。サーバ記憶部33には、サーバ制御部32が取り扱う各種データが記憶される。たとえば、サーバ記憶部33は、学習ツール(後述)、語学学習を行うユーザに関する情報(たとえば、ユーザが受けた語学力を測定するためのテスト(ユーザが行った宿題や課題を含んでいてもよい)の結果によって得られた語学学習データや当該語学学習データにより推定されるユーザの語学力データなどを含むがこれに限定されるものではない)、音響モデル(たとえば、音の高低または学習深度により分けられて作成された複数の音響モデルを含むがこれに限定されるものではない)、言語モデル(たとえば、音素や単語等のシンボル系列で構成されるモデルを含むがこれに限定されるものではない)を含んでいる。その他、実施形態および変形例1ないし4にて記述される各情報がサーバ記憶部33に記憶され得る。
【0037】
図5に示す通り、サーバ記憶部33はさらに細分化して特定され得る。すなわち、学習ツールは学習ツール記憶部331、(語学学習を行う)ユーザに関する情報は、ユーザ情報記憶部333、音響モデルは音響モデル記憶部335、言語モデルは言語モデル記憶部337にそれぞれ記憶される。これらに加え、ユーザ(学習者)の同一性・非同一性を判断できる情報(たとえば、ユーザID)を少なくとも記憶するユーザID記憶部339も備えていてもよい。たとえば、ユーザID記憶部339は、さらに学習システムを使用するに際し要求されるユーザIDとパスワードとを関連付けて記憶していてもよいし、プロフィール情報(出身地、住所、氏名、出身学校、志望校、語学試験の目標スコアといったデータの1以上を含んでいてもよい)を記憶していてもよい。
【0038】
[端末装置5の構成]
次に、端末装置5の構成を説明する。端末装置5は、使用者(たとえば、語学学習者)によって使用されるものであり、たとえば、スマートフォンやタブレット端末などのモバイル端末、ノートブックコンピュータ、またはデスクトップコンピュータなどの電子機器である。
【0039】
図3は、端末装置5の構成の一例を示す図である。図3に示すように、端末装置5は、端末通信部51と、端末制御部52と、端末記憶部53と、端末入力部54と、端末表示部55とを有している。各部は、バスを介して互いに通信可能に接続されている。
【0040】
端末通信部51は、端末装置5とネットワーク4との間の通信インターフェースである。端末通信部51は、ネットワーク4を介して端末装置5とサーバ3との間で情報を送受信する。
【0041】
端末制御部52は、端末装置5の各種処理を行う制御手段である。端末制御部52は、端末装置5内のプロセッサが所定のプログラムを実行することにより実現されてもよいし、ハードウェアで実装されてもよい。
【0042】
端末記憶部53は、たとえば内蔵メモリや外部メモリ(たとえばSDメモリカード等を含むがこれに限定されるものではない)などのデータストレージである。端末記憶部53には、端末制御部52が取り扱う各種データが記憶される。
【0043】
端末入力部54は、ユーザが端末装置5に情報を入力するためのインターフェースであり、たとえばモバイル端末における音声入力ライン、タッチパネルやマイクロフォン、ノートブックコンピュータにおける音声入力ライン、タッチパッド、キーボードまたはマウスなどである。
【0044】
端末表示部55は、端末装置5からユーザに対して各種情報を表示するインターフェースであり、たとえば液晶ディスプレイ等の映像表示手段である。具体的には、たとえば、端末表示部55は、ユーザからの操作を受け付けるためのGUI(Graphical User Interface)を表示してもよい。
【0045】
[学習処理の内容]
以下、上記の各ハードウェアおよびソフトウェア構成を前提として、まず音声認識の概要と、続いて本発明の一実施形態に係る特徴的構成を説明する。その後、本発明の一実施形態における変形例も説明する。
【0046】
[音声認識の概要]
音声認識は、複数の段階に分けて認識される。端末装置5は、ユーザの操作により音声認識に対応する入力データ(すなわち、入力音声)を収集する。該入力データは、端末装置5からネットワーク4を介してサーバ3に送信され、サーバ3の制御部32において、音の高さ、音の長さなどの特徴量の抽出がなされる。当該抽出を、特徴量抽出とも言い、当該制御部32の機能を特徴量抽出部とも言う。
【0047】
なお、入力データの特徴量およびその抽出に関しては、上記した構成に限定されるものではなく、周知または公知の手法・構成を適用してもよいものとする。例えば、制御部32が入力データをFFT(高速フーリエ変換)処理結果に基づいてMFCC(メル周波数ケプストラム係数)を計算し、所定の時間区間の単位(フレーム)で差分を算出して音声特徴量とすることもできる。
【0048】
続いて、当該入力データに含まれる特徴量を用いて、音素(すなわち、母音・子音等の言語音声の構成要素)の推定が、サーバ3の記憶部33に記憶された音響モデルを用いてなされる。ここで、音響モデルとは、音素の出力確率分布を含む数学モデルを意味する。たとえば、各音素のモデルとなる波形を示す波形データなどを含んでいる。なお、本明細書中における音素の推定との用語は、たとえば、サーバ3の制御部32によってなされる、音響モデルを用いて音素の確率を出力するということを意味してもよい。
【0049】
最後に、サーバ3の記憶部33に記憶された言語モデルを用いて、上記で推定された音素の並びに対応する、あり得る単語列(すなわち、語彙情報)を推定する。ここで、言語モデルとは、音素や単語等のシンボル系列で構成されるモデルである。なお、あり得る単語列を推定するとの記載は、たとえば、最も確率の高い単語列を認識結果のテキストとして出力するということを意味する。
【0050】
なお、上記では言語モデルと音響モデル両者を用いる例を説明したが、本発明においては両者を用いることは必須の構成ではなく、音響モデルおよび言語モデルの少なくともいずれかを適用して音声認識を行う。好ましくは、両者を用いる。
【0051】
[本発明における特徴的構成]
本発明においては、学習システムは、語学学習を行うユーザに関する情報(たとえば、ユーザが受けた語学力を測定するためのテストの結果によって得られたデータであってもよい。)を用いて、上記各推定のいずれかまたは両方を行う(好ましくは両方)。そこで以下、語学学習を行うユーザに関する情報を用いた推定について、例示的に実施の形態を説明することとする。
【0052】
[語学学習を行うユーザに関する情報を用いることについての説明]
本発明の一実施形態において、学習システムは、図4に示す通り、学習ツールで収集した学習データによって語学力(たとえば、英語力)を推定し、当該語学力データ(たとえば、英語力データ)を適用して、音声認識を行い、当該音声認識結果を学習ツールにフィードバックする、という構成を備えていてもよい。
【0053】
学習ツールとは、語学学習サービス等の一環として提供しているアプリケーション全体をさしており、たとえば、語学学習のための課題と正答の組合せ等を含む。ユーザ(学習者)は学習ツールを用いて、与えられた課題に取り組む。なお、当該実施形態における場合は、サーバ3の記憶部33において、ユーザ(学習者)の学習データは、当該ユーザの同一性を判断できる情報(たとえば、ユーザID)、学習の時期的情報、学習内容(どのような問題に取り組んだか)、回答内容(どのように回答したか)等とともに関連付けられて記憶されていてもよい。
【0054】
ここで、学習ツール中の課題には、語彙知識や文法知識を選択肢形式で問う問題や特定の質問に対する返答、特定の単語、フレーズ、文の読み上げなどが含まれていてもよく、それぞれ、選択肢、音声、音声という形でデータが保存され得る。
【0055】
これらの学習データから音声認識器で用いるパラメータが選択される。当該選択されたパラメータを語学力データ(たとえば、英語力データ)と呼ぶ。たとえば、語彙力であれば、単語数によって区分されるレベルであって、当該ユーザの使用可能な単語にマッチするパラメータであってもよいし、文法力であれば特定の検定試験において推定される結果(たとえば点数)により区分されるレベルを当該パラメータに対応するものとしてもよい。
【0056】
この語学力データ(たとえば英語力データ)にしたがって音声認識器が構成される。ただし、語学力データ(たとえば英語力データ)に従う音声認識器の構成は、以下説明する通り、音響モデルと言語モデルとにおいて別々に指定されてもよい。
【0057】
まず、音響モデルにおいては、ユーザ(学習者)の国籍・人種・性別・年齢などの属性に基づき、その音響モデルを音の高低、学習深度に合わせていくつかのグループのモデルをあらかじめ記憶部33の音響モデル記憶部335に記憶させておく。制御部32は、当該記憶されたモデルの中から、入力データに基づいてユーザ(学習者)の特徴にマッチングするモデルを選択する。当該選択は、単語、フレーズ、文の読み上げ問題との一致精度を基準に選択してもよい。
【0058】
続いて、言語モデルは学習データの中で学習者が発話したものを基準にその問題形式や言い澱みなどを判断してその学習者の口語における語彙量を推定し、作成する。ここでは、あえて非文法的な単語の並びも排除しないようにすることができる。
【0059】
これらのパラメータを学習者に対する音声認識器に適用して、当該学習者の次の学習に生かすことを可能とすることができる。その際、この音声認識器は学習ツールに埋め込まれ使用される。
【0060】
なお、上記した各音声認識のサーバ制御部32における機能を、音声認識部と称する。本発明は、上記した各ステップについて、他のステップを含むことを許容する。加えて、実施される形態によっては、上記した各ステップ中に他のステップを介在させることもでき、その本旨に反しない限りにおいて他のステップを交換的に含ませるということも許容する。また、下記の各変形例は、本発明の実施形態に対して(単一または重畳的に)組合せてもよい。
【0061】
[変形例1]
変形例1を説明する。前提として変形例1では、サーバ3の学習ツール記憶部331において、所定の語彙力レベルに、所定の単語群が関連付けられて記憶されている。また、学習ツール記憶部331に記憶された学習ツール中の課題には「筆記テスト」が含まれている。これらを前提に、当該筆記テストによってユーザ(学習者)の語彙力レベルが判定される。学習システムは、ユーザ(学習者)の語彙力レベルに応じ、当該語彙力レベル以下の単語群しか認識できないようにし、または、当該語学力レベルを超える単語の(出現)確率を下げるように構成される。なお、当該方法は、語彙力レベルを直接判定するものであるが、語学力を判定し(または判定された語学力を用い)、該語学力から語彙力を判定するようにしてもよい。すなわち、サーバ3の学習ツール記憶部331において所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶され、学習ツール記憶部331に記憶された学習ツール中の課題には「筆記テスト」が含まれ、これらを前提に、本明細書記載の手法によりユーザ(学習者)の語学力レベルが測定され、学習システムは、ユーザ(学習者)の語学力レベルに応じ、当該語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、当該語学力レベルを超える単語の(出現)確率を下げるように構成されてもよい。なお、本変形例1においては、単語群のレベルは、たとえば、市販の「英単語1000」「英単語2000」といった書籍に合わせて設定することもできるし、各種資格試験・検定試験で所定のスコアないし級を取得するのに必要とされる単語リストに基づいて設定されることができる。なお、語彙力の判定に関するサーバ制御部32における機能を語彙力判定部と称する。
【0062】
例えば、「interested」という単語の語彙力レベルがレベル2、「interesting」という単語の語彙力レベルがレベル1というものであったとする。そして、ユーザAの英語力レベルはレベル1であったとする。その場合において、ユーザAの入力音声における解析の結果、「I」「was」の後に続いて「interested」の(出現)確率が最も高かったとしても、ユーザAについて測定された語彙力レベルに応じ、当該測定された語彙力レベルに収まる単語である「interesting」と認識するようにする。
【0063】
当該構成により、筆記テストで記述できた語学力レベルや語彙力レベルを超えるレベルの単語群を会話において出現させるということを低減させることができるため、学習システムにおける音声認識の正確性をより向上させることができる。
【0064】
[変形例2]
続いて変形例2を説明する。前提として変形例2では、学習ツール記憶部331に記憶された学習ツール中の課題には文法に関する選択問題が含まれている。これを前提に、当該課題によってユーザ(学習者)の文法に関する語学力レベル(なお、文法に関する語学力レベルを、文法力と称する。)が測定される。学習システムは、ユーザ(学習者)が正解できなかった文法については認識しないか出現確率を下げるようにする。なお、文法力の判定に関するサーバ制御部32における機能を文法力判定部と称する。
【0065】
例えば、文法に関する選択問題において、「現在完了形」という文法知識を問う問題として、He 「has been」 to the U.S.が正解である問題があるとする。その場合において、学習者たるユーザBが、He 「went」 to the U.S.を選択した場合に、ユーザBは「現在完了形」という英語文法を理解していないものとし、以後、ユーザBの入力音声においては、当該文法形態の音声を認識しないようにするか(出現)確率を下げるようにする。
【0066】
当該構成により、ユーザの文法レベルを超えるレベルの文法を会話において出現させるということを低減させることができるため、学習システムにおける音声認識の正確性をより向上させることができる。
【0067】
[変形例3]
続いて変形例3を説明する。前提として変形例3では、学習ツール記憶部331に、語学レベルに応じた発音方式が記憶されている。ユーザ(学習者)の語学力レベル(たとえば英語力レベル)が、当該語学力レベルのどれに対応するものであるかが制御部32により判定される。なお、語学力の判定に関するサーバ制御部32における機能を語学力判定部と称する。
【0068】
たとえば、上級者は、「a」「the」などの冠詞、「of」「at」などの前置詞、「have」「will」などの助動詞、「are」などのbe動詞を、あまり発音しない、という発音方式が記憶されている場合において、ユーザ(学習者)が上級者に該当する語学力レベル(英語力レベル)を有すると判断された場合には、これらが抜けていても認識する。ユーザ(学習者)が初級者や中級者に該当すると判断された場合には、これらが抜けたまま認識する。
【0069】
さらに具体的に言えば、上級者の発音がthey talking aboutだとしてもthey’re talking aboutと認識し、初級者の場合はそのままthey talking aboutと認識する。
【0070】
当該構成により、ユーザの語学力レベルに応じ、認識されない単語を補い、或いはそのまま補わないということを可能とし、以て発話者たるユーザの発話をより正確に把握することができるため、学習システムにおける音声認識の利便性をより向上させることができる。
【0071】
[変形例4]
続いて変形例4を説明する。前提として変形例4では、サーバ3のユーザID記憶部339は、ユーザIDのみならず、ユーザ(学習者)のプロフィールを記憶している。制御部32は、当該ユーザID記憶部339に記憶されたプロフィールから固有名詞の文字(たとえば、英字)を抽出し、記憶部33中に、「単語リスト」などとして単語登録をする。入力データに含まれると推定された単語と、当該単語リストに登録された固有名詞との一致度が高いと判断される場合、当該推定された単語を自動的に当該登録された固有名詞に変換して出力する。
【0072】
例えば、ユーザCの住まいが池袋の場合は、該ユーザCのプロフィールに池袋(「Ikebukuro」)が予め登録され、「Ikebukuro」との固有名詞が抽出される。ユーザCの入力音声が、誤って「Ikebuko」と認識された場合であっても、学習システムはこれを「Ikebukuro」に変換して認識する。これにより、自分の名前や地名などを言った時に多少間違って認識されやすいという場合においても、予め自己紹介欄などに書かれている固有名詞を比較対象としておき、音声認識された単語と一致度が大きい場合は固有名詞に変換して認識することができる。
【0073】
なお、上述した実施の形態の記載ならびに図面の開示は、特許請求の範囲に記載された発明を説明するための一例に過ぎず、上述した実施の記載または図面の開示によって特許請求の範囲に記載された発明が限定されることはない。上述した実施の形態の構成要素は、発明の主旨を逸脱しない範囲で任意に組み合わせることが可能である。たとえば、情報の取得、情報の解析に関する段階は、各処理に係る形態と任意に組み合わせることが可能となっている。
【0074】
本実施の形態に係る情報処理システムはコンピュータシステムによって構成され得るが、コンピュータシステムに情報処理システムを実現させるためのプログラム及び当該プログラムを記録した記録媒体も、本件の保護対象である。
【符号の説明】
【0075】
学習システム 1
サーバ 3
(サーバ)通信部 31
(サーバ)制御部 32
(サーバ)記憶部 33
学習ツール記憶部 331
ユーザ情報記憶部 333
音響モデル記憶部 335
言語モデル記憶部 337
ユーザID記憶部 339
端末装置 5、5a、5b
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2021年5月12日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
また更に、前記テストの結果により前記ユーザの語学力を判定するとともに、前記語学力から語彙力を判定する語彙力判定部と、前記所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶されている学習ツール記憶部と、を有し、
前記音声認識部は、前記語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、前記語学力レベルを超える単語の出現確率を下げるように構成することにより、前記ユーザの語彙力に対応する単語に関して音声認識を行う学習システム。
【請求項2】
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
また更に、前記テストの結果により前記ユーザの文法力を判定する文法力判定部を有し、
前記音声認識部は、前記ユーザが正解できなかった文法については認識しないか出現確率を下げるようにすることにより前記ユーザの文法力に対応する単語に関して音声認識を行うことを特徴とする学習システム。
【請求項3】
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部と、を有し、
前記音声認識部は、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部を有し、
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行い、
更にまた、前記語学学習データ記憶部は、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶し、
また更に、前記学習ツール記憶部は、語学レベルに応じた発音方式を記憶するとともに、前記発音方式に基づいて前記ユーザの語学力レベルを判定する語学力判定部を有し、
前記音声認識部は、前記語学力判定部の判断に基づいて音声認識を行うことを特徴とする学習システム。
【請求項4】
前記音声認識部は、前記語学学習データを用いて前記音響モデルおよび前記言語モデルを適用して音声認識を行うことを特徴とする請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項5】
前記テストは、選択式又は筆記式のテストであり、
前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項6】
前記テストは、ユーザによる発声が伴うテストであり
前記音声認識部は、前記テストによって得られたデータを前記語学学習データとして記憶することを特徴とする請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項7】
前記音響モデルは、音の高低または学習深度により分けられて作成された複数の音響モデルであり、
前記音響モデル記憶部に記憶された複数の音響モデルの中から音響モデルを選択する音響モデル選択部を有し、
前記音響モデル選択部は、前記複数の音響モデルの中から前記テストの結果に対応する音響モデルを選択することを特徴とする請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項8】
前記言語モデルは、前記テストの結果により作成されたものであることを特徴とする請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項9】
前記音声認識部は、前記ユーザの語学力に応じて所定の単語の認識パターンを変えて音声認識を行う請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項10】
前記ユーザに関する情報には、固有名詞が含まれ、
前記固有名詞と前記音声認識した音声との一致度を判定する固有名詞一致度判定部を有し、
前記音声認識部は、前記一致度が所定の一致度以上である場合に前記音声を前記固有名詞として認識する請求項1〜請求項3のいずれか一項に記載の学習システム。
【請求項11】
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるとともに、
前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部として機能させ、
前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
また更に、前記テストの結果により前記ユーザの語学力を判定するとともに、前記語学力から語彙力を判定する語彙力判定部と、前記所定の語学力レベルに所定の語彙力レベルまたは所定の単語群が関連付けられて記憶されている学習ツール記憶部として機能させ、
前記音声認識部を、前記語学力レベル以下の語彙力レベル単語ないし単語群しか認識できないようにし、または、前記語学力レベルを超える単語の出現確率を下げるように構成することにより、前記ユーザの語彙力に対応する単語に関して音声認識を行うように機能させることを特徴とするプログラム
【請求項12】
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるとともに、
前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部として機能させ、
前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
また更に、前記テストの結果により前記ユーザの文法力を判定する文法力判定部として機能させ、
前記音声認識部を、前記ユーザが正解できなかった文法については認識しないか出現確率を下げるようにすることにより前記ユーザの文法力に対応する単語に関して音声認識を行うように機能させることを特徴とするプログラム
【請求項13】
学習システムのコンピュータを、
語学学習を行うユーザに関する情報を記憶するユーザ情報記憶部と、
音響モデルを記憶する音響モデル記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音声を認識する音声認識部として機能させるとともに、
前記音声認識部を、前記ユーザに関する情報を用いることにより前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更に、前記ユーザに関する情報は、前記ユーザによる語学学習に関するデータである語学学習データであるとともに、
前記語学学習データを記憶する語学学習データ記憶部として機能させ、
前記音声認識部を、前記語学学習データを用いて前記音響モデルおよび前記言語モデルの少なくともいずれかを適用して音声認識を行うように機能させ、
更にまた、前記語学学習データ記憶部を、前記ユーザが受けた語学力を測定するためのテストの結果によって得られたデータを前記語学学習データとして記憶するように機能させ、
また更に、前記学習ツール記憶部を、語学レベルに応じた発音方式を記憶するとともに、前記発音方式に基づいて前記ユーザの語学力レベルを判定する語学力判定部として機能させ、
前記音声認識部を、前記語学力判定部の判断に基づいて音声認識を行うように機能させることを特徴とする学習システム。