(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022035596
(43)【公開日】2022-03-04
(54)【発明の名称】言語学習支援装置、プログラム及び情報処理方法
(51)【国際特許分類】
G09B 19/06 20060101AFI20220225BHJP
G09B 19/00 20060101ALI20220225BHJP
G06Q 50/20 20120101ALI20220225BHJP
【FI】
G09B19/06
G09B19/00 Z
G06Q50/20
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2020140034
(22)【出願日】2020-08-21
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.THUNDERBOLT
(71)【出願人】
【識別番号】520201064
【氏名又は名称】言語研究開発合同会社
(74)【代理人】
【識別番号】110002789
【氏名又は名称】特許業務法人IPX
(72)【発明者】
【氏名】西村 拓途
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC34
(57)【要約】
【課題】学習効率のよい言語学習教材の作成を可能とする技術を提供すること。
【解決手段】本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、カウントステップと、算出ステップと、ソートステップとを実行するように構成される。カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントする。フレーズ群とは、複数の単語から成るフレーズの集合である。算出ステップでは、出現回数に基づき、単語の重複を示す評価値を算出する。ソートステップでは、評価値に基づき、フレーズをソートする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
言語学習支援装置であって、
カウントステップと、算出ステップと、ソートステップとを実行するように構成され、
前記カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントし、
前記フレーズ群とは、複数の前記単語から成るフレーズの集合で、
前記算出ステップでは、前記出現回数に基づき、前記単語の重複を示す評価値を算出し、
前記ソートステップでは、前記評価値に基づき、前記フレーズをソートする、
もの。
【請求項2】
請求項1に記載の言語学習支援装置であって、
前記評価値は、前記フレーズに含まれる前記単語の前記出現回数の合計を、前記フレーズに含まれる前記単語の数で割ったものである、
もの。
【請求項3】
請求項1又は請求項2に記載の言語学習支援装置であって、
前記ソートステップでは、前記フレーズを前記評価値の小さい順にソートする、
もの。
【請求項4】
請求項1~請求項3の何れか1つに記載の言語学習支援装置であって、
フレーズ抽出ステップをさらに実行するように構成され、
前記フレーズ抽出ステップでは、前記フレーズ群から前記評価値の低い前記フレーズを抽出する、
もの。
【請求項5】
請求項4に記載の言語学習支援装置であって、
受付ステップをさらに実行するように構成され、
前記受付ステップでは、使用単語を受け付け、
前記フレーズ抽出ステップでは、前記使用単語を含むように、前記フレーズを前記フレーズ群から抽出する、
もの。
【請求項6】
請求項4又は請求項5に記載の言語学習支援装置であって、
前記フレーズ抽出ステップでは、前記評価値に基づき、他の前記フレーズに含まれる前記単語と重複する前記単語を含まない前記フレーズを、前記フレーズ群から抽出する、
もの。
【請求項7】
請求項4~請求項6の何れか1つに記載の言語学習支援装置であって、
前記フレーズ抽出ステップでは、前記評価値が1の前記フレーズを、前記フレーズ群から抽出する、
もの。
【請求項8】
プログラムであって、
コンピュータを請求項1~請求項7の何れか1つに記載の言語学習支援装置として機能させる、
もの。
【請求項9】
情報処理方法であって、
カウントステップと、算出ステップと、ソートステップとを備え、
前記カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントし、
前記フレーズ群とは、複数の前記単語から成るフレーズの集合で、
前記算出ステップでは、前記出現回数に基づき、前記単語の重複を示す評価値を算出し、
前記ソートステップでは、前記評価値に基づき、前記フレーズをソートする、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語学習支援装置、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
教育者が言語学習に関する教材を作成する際、学習者が多種多様な表現を学習できるように、できるだけ多くの種類のフレーズを収録して教材を作成するのが一般的である。特許文献1には、教材の作成を支援する教材作成支援システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、通常、言語学習教材に収録するフレーズを選択する際、収録するフレーズの数が多くなると、多くの文章で多用されやすい単語が、使用頻度の低い単語に優先して多くのフレーズに含まれることとなる。このような場合、複数の表現に同一の単語が重複して含まれることとなるが、重複する単語が増えることで学習者の学習負担が増加し、学習効率が落ちてしまうという問題が生じていた。
【0005】
本発明では上記事情を鑑み、学習効率のよい言語学習教材の作成を可能とする技術を提供することとした。
【課題を解決するための手段】
【0006】
本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、カウントステップと、算出ステップと、ソートステップとを実行するように構成される。カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントする。フレーズ群とは、複数の単語から成るフレーズの集合である。算出ステップでは、出現回数に基づき、単語の重複を示す評価値を算出する。ソートステップでは、評価値に基づき、フレーズをソートする。
【0007】
これにより、学習効率のよい言語学習教材の作成を可能とする技術を提供することができる。
【図面の簡単な説明】
【0008】
【
図1】第1の実施形態に係る言語学習支援装置3のハードウェア構成を示すブロック図である。
【
図2】言語学習支援装置3の機能を示す機能ブロック図である。
【
図3】言語学習支援装置3による情報処理の一例を示すアクティビティ図である。
【
図4】文章データT1及び単語リストデータT2の一例を示す図である。
【
図5】重複削除前後のソート結果Sを示す図である。
【
図6】フレーズ群5、フレーズ6、出現回数7及び評価値8の一例を示す図である。
【
図8】使用単語9を含むようにフレーズ6を抽出する場合の情報処理の一例を示すアクティビティ図である。
【
図9】フレーズ群5、フレーズ6、出現回数7、評価値8及び出力データWの一例を示す図である。
【
図10】第2の実施形態に係るシステム1の構成概要を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0010】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0011】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
【0012】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0013】
1.ハードウェア構成(第1の実施形態)
本節では、本実施形態のハードウェア構成について説明する。
図1は、第1の実施形態に係る言語学習支援装置3のハードウェア構成を示すブロック図である。言語学習支援装置3は、コンピュータに専用プログラムがインストールされることによって実施される。言語学習支援装置3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
【0014】
(通信部31)
通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
【0015】
(記憶部32)
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される言語学習支援装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
【0016】
(制御部33)
制御部33は、言語学習支援装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、言語学習支援装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(
図2参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
【0017】
(表示部34)
表示部34は、例えば、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、言語学習支援装置3の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部33における出力部341の制御信号に応答して、表示画面を選択的に表示しうる。これにより、表示部34は、出力データWをユーザが視認可能に表示することができる。
【0018】
(入力部35)
入力部35は、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御や演算を実行しうる。
【0019】
特に、ユーザは、入力部35を用いて、文章データT1及び単語リストデータT2の処理条件等を入力することができる。
【0020】
2.機能構成
本節では、本実施形態の機能構成について説明する。
図2は、言語学習支援装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
【0021】
具体的には、言語学習支援装置3(制御部33)は、受付部331と、設定部332と、処理部333と、単語抽出部334と、カウント部335と、ソート部336と、重複削除部337と、算出部338と、フレーズ抽出部339と、判定部340と、出力部341とを備える。
【0022】
(受付部331)
受付部331は、受付ステップを実行する。受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、通信部31、記憶部32又は入力部35を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、使用単語9を含む単語リストデータT2と、文章データT1と、文章データT1の処理設定に関する情報とを入力データとして受け付ける。また、受付部331は、文章データT1に代わり、フレーズ群5を受け付けてもよい。
【0023】
文章データT1及び文章データT1の処理設定に関する情報は、言語学習支援装置3における記憶部32に予め記憶されているものを読み出すようにしてもよいし、外部メディアに記憶されたものを読み出すようにしてもよい。あるいはユーザが、入力部35を用いて、これらのデータ又は情報を直接作成してもよいし、通信部31を介して、外部からこれらのデータ又は情報をダウンロードするようにしてもよい。
【0024】
(設定部332)
設定部332は、受付部331が受け付けた種々の情報に基づき、言語学習支援装置3による処理条件を設定する。具体的には、例えば、設定部332は、文章データT1の処理設定に関する情報に基づき、フレーズ6に含める単語数の上限値や、自然言語処理の有無、採用フレーズ4に含まれる単語数、端数の処理条件、文章データT1及び単語リストデータT2の処理条件を設定する。設定部332による各種設定は、設定ファイルとして記憶部32に記憶される。すなわち、設定部332は、該処理条件に基づき各種設定を行うことで、受付部331が受け付けた文章データT1の処理条件を、言語学習支援装置3の情報処理に反映する。
【0025】
(処理部333)
処理部333は、文章データT1を含むファイル及び文章データT1に含まれる単語、記号、数字等を設定部332による設定に基づき処理する。具体的には、文章データT1を含むファイルを結合・分割し、文章データT1の書式を変換し、任意の記号が含まれる単語及びフレーズ6を削除する。また、処理部333は、フレーズ群5に含まれない使用単語9を、単語リストデータT2から除外する。
【0026】
(単語抽出部334)
単語抽出部334は、設定部332による設定に基づき、文章データT1に含まれる単語を抽出する。単語抽出部334は、単語とともに、文章に含まれる記号及び数字の抽出を行う。
【0027】
(カウント部335)
カウント部335は、カウントステップを実行する。カウント部335は、文章データT1に含まれる単語及びフレーズ6の出現回数7と、単語リストデータT2に含まれる使用単語9の出現回数7とをカウントする。また、上限値が設定されている場合、カウント部335は、設定された上限値以下の単語及びフレーズ6の出現回数7をカウントする。さらに、カウント部335は、フレーズ群5に含まれる単語の出現回数7をカウントする。フレーズ群5とは、複数の単語から成るフレーズ6の集合である。
【0028】
(ソート部336)
ソート部336は、ソートステップを実行する。ソート部336は、評価値8に基づき、フレーズ6をソートする。
【0029】
(重複削除部337)
重複削除部337は、ソート結果Sに含まれる複数のフレーズ6に同一の単語の組み合わせが含まれる場合、複数のフレーズ6のうち一部を削除することで、採用フレーズ4を決定するように構成される。
【0030】
(算出部338)
算出部338は、算出ステップを実行する。算出部338は、出現回数7に基づき、単語の重複を示す評価値8を算出する。
【0031】
(フレーズ抽出部339)
フレーズ抽出部339は、フレーズ抽出ステップを実行する。フレーズ抽出部339は、フレーズ群5から評価値8の低いフレーズ6を抽出する。特に、フレーズ抽出部339は、使用単語9を含むように、フレーズ6をフレーズ群5から抽出する。使用単語9とは、フレーズ群5からフレーズ6を抽出する際、対応フレーズ群に含まれることが好ましい単語をいう。
【0032】
(判定部340)
判定部340は、対応フレーズ群に含まれるフレーズ6の少なくとも1つに使用単語9が含まれる否かを判定する。
【0033】
(出力部341)
出力部341は、出力データW1と出力データW2と出力データW3とを出力し、これが言語学習支援装置3の表示部34に表示される。
【0034】
3.情報処理の詳細
本節では、アクティビティ図を参照しながら、言語学習支援装置3の情報処理について説明する。
【0035】
3.1 評価値8の算出までの処理
図3は、言語学習支援装置3による情報処理の一例を示すアクティビティ図である。
図4は、文章データT1及び単語リストデータT2の一例を示す図である。
図5は、重複削除前後のソート結果Sを示す図である。
図6は、フレーズ群5、フレーズ6、出現回数7及び評価値8の一例を示す図である。
図7は、出力データWの一例を示す図である。
【0036】
まず、ユーザは、入力部35を用いて、文章データT1を入力データとして言語学習支援装置3に予めインストールされた専用プログラムに読み込ませる。また、ユーザは、フレーズ群5(例えば、フレーズ群51及びフレーズ群52)と、使用単語9を含む単語リストデータT2とを入力データとして読み込ませてもよい。その後、受付部331は、これらの入力データを受け付ける(A101)。
【0037】
文章データT1のファイル形式は、例えばテキスト形式(.txt又は.csv)である。文章データT1は、複数のファイルからなってもよいし、単一のファイルでもよい。また、文章データT1は、言語コーパスであることが好ましいが、学術論文、新聞、演説等、何らかの言語により構成された資料であれば種類は問わない。さらに、文章データT1は、数億単語以上で構成されることが好ましい。文章データT1の処理設定に関する情報とは、例えば、フレーズ6に含める単語数の上限値、自然言語処理に関する設定、ファイルの分割単位に関する設定等情報である。なお、文章データT1及びフレーズ群5の言語は、特に限られないが、例えば、英語、中国語、フランス語、ドイツ語、スペイン語、ロシア語、ポルトガル語、ヒンドゥー語、アラビア語等である。本実施形態では、英語を例に説明している。
【0038】
受付部331が文章データT1を受け付けた場合、A102に進む。一方、受付部331がフレーズ群5を受け付けた場合、A106に進む。A102において、設定部332は、A101で受け付けた処理設定に基づき、フレーズ6に含める単語数の上限値を設定する(A102)。この際、自然言語処理に係る設定、採用フレーズ4の単語数等、文章データT1の処理条件等が設定される。次に、処理部333は、所定の単語数(例えば、数万語)ごとにファイルを分割する。また、処理部333は、設定された処理条件に基づき、文章データT1に含まれる文字、数字及び記号(以後、単語等)を、所定の形式に変換するとともに、文章データT1に含まれる改行を削除する。例えば、処理部333は、文章中の全角文字(英数字及び記号を含む)を、半角文字に変換し、アルファベットの大文字を小文字に変換する。
【0039】
次に、単語抽出部334は、文章中の所定入力(例えばスペース、タブ記号又は改行)に基づき、文章データT1に含まれる単語等を抽出する(A103)。
【0040】
単語等が抽出されると、処理部333は、抽出された単語等を文章の登場順に並べた単語リストを生成するとともに、該単語リストに基づき上限値以下の単語等で構成されるフレーズ6を含むフレーズリストを生成する(A104)。なお、処理部333は、単語とともに抽出した記号及び数字を、それぞれ一単語とみなして単語リスト及びフレーズリスト(フレーズ群5)を作成する。ここで、フレーズ6とは、抽出された複数の単語等を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。
【0041】
設定された上限値が2である場合、単語抽出部334によって文章データT1に含まれる単語が抽出された後、処理部333は、単語リストを生成する(不図示)。また、処理部333は、抽出した単語を、単語リストに基づき、2単語ずつ一つのフレーズ6としてリストアップしたフレーズリスト(フレーズ群5)を生成する。
【0042】
より具体的には、“my”、“father’s”、“dragon”、“chapter”、“one”、が単語として抽出された場合、2単語のフレーズ6としては、文章の登場順に“my father’s”、“dragon chapter”と、“father’s dragon”、“chapter one”とがリストアップされる。すなわち、連続している任意の組合せをフレーズ6としてリストアップする。より一般化すると、n単語のフレーズ6の場合は、n通りのリストアップが考えられる。このようにすることで、漏れのないリストアップが実現される。その結果、処理部333によって、文章データT1は、2つのリスト(単語リスト及び2単語のフレーズリスト)に変換される。
【0043】
設定された上限値が3である場合、処理部333は、単語リスト及び2単語を含むフレーズリスト(フレーズ群5)に加え、3単語のフレーズ6を含む3つのフレーズリストを生成する。かかる場合、抽出された単語は文章の登場順に、“my father’s dragon”が3単語のフレーズ6の代表例としてリストアップされる(不図示)。
【0044】
単語リスト及びフレーズリスト(フレーズ群5)が生成されると、処理部333は、処理設定に基づき、単語とともに抽出された所定の記号(例えば、コンマ、ピリオド等)と、所定の記号を含むフレーズ6とを削除する。その後、カウント部335は、設定された上限値以下の単語及びフレーズ6の出現回数7をカウントする。
【0045】
また、複数のフレーズ6に同一の単語の組み合わせが含まれる場合、重複削除部337は、複数のフレーズ6のうち一部を削除することで、採用フレーズ4を決定する(A105)。ここで、採用フレーズ4は、フレーズ6に含まれる単語数に基づき決定されることが好ましい。より具体的には、採用フレーズ4は、フレーズ6に含まれる単語数が最大又は最小のフレーズ6であることが好ましい。採用フレーズ4を最大のフレーズ6とするか、最小のフレーズ6とするかの決定及び採用フレーズ4に含まれる単語数に係る決定は、設定部332によってなされた文章データT1の処理設定に基づき行われる。
【0046】
ここで、採用フレーズ4とは、重複削除部337によって削除されずに残ったフレーズ6である。
図5において、上限値が3に設定されるとともに、採用フレーズ4をフレーズ6に含まれる単語数が最大のフレーズ6とする設定がなされた場合の例が示される。例えば、重複削除前のソート結果S12~ソート結果S14を参照すると、文章中に“he”という単語が3回、“he is”というフレーズ6が2回、“he is a student”というフレーズ6が2回出現した場合、重複削除部337は、それぞれのソート結果Sで重複している“he”及び“he is”を削除するとともに、採用フレーズ4を“he is a student”に決定し、ソート結果S15~ソート結果S17を生成する。すなわち、複数のフレーズ6に同一の単語の組み合わせが含まれる場合、重複削除部337は、複数のフレーズ6のうち、1つの採用フレーズ4を除いた残りを削除する。これにより、ユーザが出力データWを学習に用いる際、単語やフレーズ6の重複のない出力データWを確認することが可能となるので、学習者が効率よく言語学習することができる。
【0047】
ここで、フレーズ6に含まれる単語数が最大のフレーズ6を採用フレーズ4とする設定がなされた場合の例として、
図5を参照されたい。
図5において、ソート結果S12~ソート結果S14において重複する単語又はフレーズ6がある場合、単語数が最大のソート結果S14以外のソート結果S12及びソート結果S13に含まれるフレーズ6が削除されることとなる。すなわち、ソート結果S14に含まれるフレーズ6が、優先的に採用フレーズ4として残される。より具体的には、重複削除前後のソート結果Sを比較すると、“he”、“is”、“a”、”“he is”及び“is a”は、それぞれソート結果S14のフレーズ6に含まれる単語の組み合わせと重複するものとして削除され、ソート結果S14においてこれらの単語及びフレーズ6を含む“he is a student”と、“she has the”とが残ることとなる。なお、ソート結果S16の“she is”は、ソート結果S14に含まれるフレーズ6と重複しないので、削除されず残されることとなる。なお、以後のアクティビティにおいて、重複削除後のフレーズ群5に含まれるフレーズ6は、採用フレーズ4であるものとして扱うものとする。以後、重複削除後のフレーズ群5として、フレーズ群51(
図6参照)及びフレーズ群52(
図9参照)を例に説明する。
【0048】
続いて、カウント部335は、フレーズ群5に含まれる単語の出現回数7をカウントする(A106)。例えば、カウント部335は、フレーズ群51又はフレーズ群52に含まれる単語の出現回数7をカウントする。なお、カウント部335は、重複する単語がどのフレーズ6に含まれるのかに関わらず、出現回数7を算出する。すなわち、カウント部335は、同一のフレーズ6に同一の単語が含まれる場合でも、複数のフレーズ6相互に同一の単語が含まれる場合でも、それぞれ同様に単語が重複しているものとして出現回数7を算出する。また、このとき、カウント部335は、単語リストデータT2(例えば、単語リストデータT20)に含まれる使用単語9の出現回数7をカウントする。
【0049】
続いて、算出部338は、フレーズ群5に含まれる各フレーズ6ごとに、各フレーズ6に含まれる単語の出現回数7に基づき、単語の重複を示す評価値8を算出する(A107)。ここで、評価値8は、フレーズ6に含まれる単語の出現回数7の合計を、フレーズ6に含まれる単語の数で割ったものである。評価値8が小さいほど、フレーズ6に含まれる単語に重複が少ないことが示される。なお、評価値8の最小値は1であり、フレーズ6に含まれる単語に重複がない場合の評価値8は1となる。
【0050】
フレーズ群51(
図6)の例では、評価値81を算出するフレーズ61が“he is a”である場合、算出部338は、“he”と、”is”と、”a”との出現回数71(それぞれ2回、1回、3回)の合計である6を、該フレーズ61の単語数である3で割り、2を該フレーズ61の評価値81として算出する。また、フレーズ群52(
図9)の例では、評価値82を算出するフレーズ64が“he has the pen”である場合、算出部338は、“he”と、”has”と、“the”と、“pen”との出現回数72(それぞれ2回、1回、3回、1回)の合計である6を、単語数である4で割り、1.75を該フレーズ64の評価値82として算出する(
図9参照)。
【0051】
ここで、割り切れない数が算出された場合、算出部338は、端数処理をしてから評価値82を算出する。例えば、算出部338は、小数点第16位を四捨五入した数を、評価値82として算出する。フレーズ64が”the united states”である場合、算出部338は、該フレーズ64に含まれる単語の出現回数72(それぞれ3回、1回、1回)の合計である5を、単語数である3で割り、小数点第16位を四捨五入した1.6666666666666667を評価値82として算出する。このようにして、フレーズ群5に含まれる全てのフレーズ6について、評価値81を算出する。
【0052】
3.2 重複を含まないフレーズ6を出力する場合
評価値8が1のフレーズ6のみ抽出を行う場合、A108に進む。A108において、フレーズ抽出部339は、評価値8に基づき、他のフレーズ6に含まれる単語と重複する単語を含まないフレーズ6を、フレーズ群5から抽出する。具体的には、フレーズ抽出部339は、評価値8が1のフレーズ6を、フレーズ群5から抽出する。例えば、フレーズ抽出部339は、フレーズ群51に含まれるフレーズ61のうち、評価値8が1のフレーズ61を抽出する。その後、出力部341は、評価値8が1のフレーズ63のみを含む出力データW2を出力する(A110)。この場合、互いに重複した単語を含まないフレーズ6のみが出力されるので、多くの単語が含まれるフレーズ群5を学習する場合でも、単語が重複することによって学習効率が低下することなく、学習者は効率よく複数のフレーズ6を学習することができる。
【0053】
3.3 評価値8が算出された全てのフレーズ6を出力する場合
フレーズ抽出部339による抽出を行わない場合、A109に進む。ソート部336は、算出された評価値8に基づき、フレーズ6をソートする。具体的には、ソート部336は、フレーズ6を評価値8の小さい順にソートする。例えば、ソート部336は、フレーズ群51に含まれるフレーズ6を評価値8の小さい順にソートする。その後、出力部341は、出力データW1を出力する(A110)。このように、重複する単語を含まないフレーズ6が上位になるように並べ替えられて示されることで、フレーズ6相互に含まれる単語の重複が少ないフレーズ6を優先的に学習することが可能となる。
【0054】
3.4 使用単語9を含むように抽出したフレーズ6を出力する場合
続いて、
図8を参照しながら、使用単語9を含むようにフレーズ群5からフレーズ6を抽出する場合の処理を説明する。
図8は、使用単語9を含むようにフレーズ6を抽出する場合の情報処理の一例を示すアクティビティ図である。
図9は、フレーズ群5、フレーズ6、出現回数7、評価値8及び出力データWの一例を示す図である。
【0055】
まず、ソート部336は、フレーズ6を評価値8の小さい順にソートする(A201)。
図9の例では、ソート部336は、フレーズ64を評価値82の小さい順にソートし、ソート結果S18を生成する。
【0056】
次に、処理部333は、フレーズ群5に含まれない使用単語9を、単語リストデータT2から除外する。
図9に示されるように、処理部333は、単語リストデータT20に含まれる使用単語91のち、ソート結果S18に含まれない使用単語9である“Tokugawa”を除外し、単語リストデータT21を生成する。
【0057】
次に、ソート部336は、A106で算出した出現回数7の少ない順に、使用単語9をソートする(A203)。続いて、フレーズ抽出部339は、使用単語9を含むように、フレーズ6をフレーズ群5から抽出する(A204)。特に、フレーズ抽出部339は、フレーズ群5から評価値8の低いフレーズ6を優先して抽出する。 具体的には、フレーズ抽出部339は、フレーズ群5の中から、単語リストデータT2の先頭の使用単語9を含むフレーズ6のうち、最も評価値8の小さいフレーズ6をフレーズ群5から抽出する。以後、フレーズ抽出部339によって抽出された使用単語9を含むフレーズ6を対応フレーズとよび、対応フレーズの集合を対応フレーズ群とよぶ。
【0058】
次に、判定部340は、先頭から2番目の使用単語9について、対応フレーズ群を参照し(A205)、使用単語9が対応フレーズ群に含まれるか否かを判定する。かかる判定は、単語リストデータT2に含まれる全ての使用単語9について、出現回数7の少ない順に実施される。使用単語9が対応フレーズ群に含まれない場合、フレーズ抽出部339は、使用単語9を含むフレーズ6のうち、最も評価値8の小さいフレーズ6を抽出する(A206)。対応フレーズ群に含まれる場合、使用単語9を含むフレーズ6は既に抽出されているとして、フレーズ抽出部339は、フレーズ6の抽出を行わない。
【0059】
ここで、フレーズ群52から使用単語92を含むフレーズ64を抽出する場合の処理を具体的に説明する。まず、フレーズ抽出部339は、単語リストデータT21の先頭の使用単語92(“looking”)を含むフレーズ64のうち、最も評価値8の小さい“looking for”をソート結果S18から抽出し、これが対応フレーズとなる。
【0060】
続いて、判定部340は、“for”が対応フレーズ群に含まれるか否か判定する。“for”は既に対応フレーズ(looking for”)に含まれるので、フレーズ抽出は行われず次の処理に移る。次に、判定部340は、“united”について判定する。“united”は対応フレーズ群に含まれないので、フレーズ抽出部339によって“the united states”が抽出される(このとき、対応フレーズ群は、“looking for”及び“the united states”からなる。)。“states”は、対応フレーズ群に含まれるので、抽出は行われず次の処理に移る。
【0061】
次に、判定部340は、“he”について判定する。“he”は、対応フレーズ群に含まれない。ここで、“he”を含むフレーズ64(“he has the pen”及び”he is the”)には、対応フレーズ群に含まれる“the”が含まれるため、これらのフレーズ64は抽出されず、次の処理に移る。
【0062】
全ての使用単語91についての判定が完了すると、A207に進む。A207では、出力部341は、対応フレーズ群(出力データW3)と、対応フレーズ群に含まれなかった使用単語91及び処理部333によって使用単語91から除外された使用単語91を含む出力データW4とが、それぞれ出力される。このようにして、使用単語9を含み、かつ、単語の重複が含まれないようにフレーズ6の抽出が行われる。
【0063】
なお、出力データWに含まれるフレーズ6について、単語の重複を許容する場合、フレーズ抽出部339は、前述した“he”を含むフレーズ64(“he has the pen”及び”he is the”)のうち、評価値82の小さい“he has the pen”を抽出する。この場合、出力部341は、“the”が重複する出力データW5と、単語リストデータT20から除外された単語である“Tokugawa”のみを含む出力データW6とを出力する。
【0064】
上記構成では、抽出したフレーズ6が、使用単語9を含み、かつ、互いのフレーズ6に含まれる単語の重複が極力少ない組み合わせとなるように、フレーズ群5からフレーズ6を抽出した出力データWが出力される。その結果、学習対象としたい単語群の指定と、指定した単語をフレーズ6に含ませることによる学習効率の低下の軽減とを両立させた教材の作成が可能となる。
【0065】
このように、第1の実施形態に係る言語学習支援装置3によれば、文章データT1を入力として、互いのフレーズ6に含まれる単語が重複しないように組み合わせられたフレーズ群5を抽出することができる。このようなフレーズ群5を用いることで、学習効率のよい言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、専用プログラムをインストールした言語学習支援装置3を使用するため、オフライン環境でも使用可能であり、大容量の文章データT1を扱うことに適している。
【0066】
4.第2の実施形態
本節では、第2の実施形態に係る言語学習支援装置3及びこれを含むシステム1について説明する。なお、第1の実施形態に係る言語学習支援装置3と同様の構成や特徴については、説明を省略する。
図10は、第2の実施形態に係るシステム1の構成概要を示す図である。システム1は、端末2と、言語学習支援装置3とを備え、これらが電気通信回線を通じて通信可能に構成される。
【0067】
端末2は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて言語学習支援装置3にアクセス可能なものであれば、その形態は問わない。端末2は、通信部と、記憶部と、制御部と、表示部と、入力部とを有し、これらの構成要素が端末2の内部において通信バスを介して電気的に接続されている。
【0068】
通信部、記憶部、制御部、表示部及び入力部の具体的な説明については、第1節で説明した言語学習支援装置3における通信部31、記憶部32、制御部33、表示部34及び入力部35の記載を参照されたい。
【0069】
言語学習支援装置3は、ハードウェア構成として、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。詳細は、第1節で説明した言語学習支援装置3における通信部31、記憶部32及び制御部33の記載を参照されたい。また、第2の実施形態における言語学習支援装置3(制御部33)は、機能構成として、受付部331と、設定部332と、処理部333と、単語抽出部334と、カウント部335と、ソート部336と、重複削除部337と、算出部338と、フレーズ抽出部339と、判定部340と、出力部341とを備える。
【0070】
特に、受付部331は、ユーザが使用する端末2からネットワーク及び通信部31を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、端末2から種々の情報を受け付ける。詳細は、第1節で説明した言語学習支援装置3における受付部331の記載を参照されたい。
【0071】
また、出力部341は、出力データWを出力し、これが端末2の表示部に表示される。あるいは、出力部341は、出力データWを端末2に表示させるためのレンダリング情報だけを生成してもよい。
【0072】
このように、第1の実施形態に係る言語学習支援装置3によれば、文章データT1を入力として、互いのフレーズ6に含まれる単語ができるだけ重複しないように組み合わせられたフレーズ群5を抽出することができる。このようなフレーズ群5を用いることで、学習効率のよい言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、ユーザが端末2を介して、外部サーバである言語学習支援装置3にアクセス可能に構成されており、多くのユーザがより手頃に文章データT1から学習効率のよい言語学習教材を作成することができる。
【0073】
5.その他
本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
【0074】
(1)本実施形態の態様は、プログラムであってもよい。このプログラムは、コンピュータを言語学習支援装置3として機能させる。
(2)言語学習支援装置3には、上記のプログラムが予めインストールされていてもよいし、コンピュータにこれをインストールして事後的に言語学習支援装置3として機能するように実施してもよい。
(3)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、カウントステップと、算出ステップと、ソートステップとを備える。カウントステップでは、フレーズ群5に含まれる単語の出現回数7をカウントする。フレーズ群5とは、複数の単語から成るフレーズ6の集合である。算出ステップでは、出現回数7に基づき、単語の重複を示す評価値8を算出する。ソートステップでは、評価値8に基づき、フレーズ6をソートする。
【0075】
さらに、次に記載の各態様で提供されてもよい。
前記言語学習支援装置であって、前記評価値は、前記フレーズに含まれる前記単語の前記出現回数の合計を、前記フレーズに含まれる前記単語の数で割ったものである、もの。
前記言語学習支援装置であって、前記ソートステップでは、前記フレーズを前記評価値の小さい順にソートする、もの。
前記言語学習支援装置であって、フレーズ抽出ステップをさらに実行するように構成され、前記フレーズ抽出ステップでは、前記フレーズ群から前記評価値の低い前記フレーズを抽出する、もの。
前記言語学習支援装置であって、受付ステップをさらに実行するように構成され、前記受付ステップでは、使用単語を受け付け、前記フレーズ抽出ステップでは、前記使用単語を含むように、前記フレーズを前記フレーズ群から抽出する、もの。
前記言語学習支援装置であって、前記フレーズ抽出ステップでは、前記評価値に基づき、他の前記フレーズに含まれる前記単語と重複する前記単語を含まない前記フレーズを、前記フレーズ群から抽出する、もの。
前記言語学習支援装置であって、前記フレーズ抽出ステップでは、前記評価値が1の前記フレーズを、前記フレーズ群から抽出する、もの。
プログラムであって、コンピュータを前記言語学習支援装置として機能させる、もの。
情報処理方法であって、カウントステップと、算出ステップと、ソートステップとを備え、前記カウントステップでは、フレーズ群に含まれる単語の出現回数をカウントし、前記フレーズ群とは、複数の前記単語から成るフレーズの集合で、前記算出ステップでは、前記出現回数に基づき、前記単語の重複を示す評価値を算出し、前記ソートステップでは、前記評価値に基づき、前記フレーズをソートする、方法。
もちろん、この限りではない。
【0076】
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0077】
1 :システム
2 :端末
3 :言語学習支援装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
332 :設定部
333 :処理部
334 :単語抽出部
335 :カウント部
336 :ソート部
337 :重複削除部
338 :算出部
339 :フレーズ抽出部
340 :判定部
341 :出力部
34 :表示部
35 :入力部
4 :採用フレーズ
5 :フレーズ群
51 :フレーズ群
52 :フレーズ群
6 :フレーズ
61 :フレーズ
63 :フレーズ
64 :フレーズ
7 :出現回数
71 :出現回数
72 :出現回数
8 :評価値
81 :評価値
82 :評価値
9 :使用単語
91 :使用単語
92 :使用単語
S :ソート結果
S12 :ソート結果
S13 :ソート結果
S14 :ソート結果
S15 :ソート結果
S16 :ソート結果
S17 :ソート結果
S18 :ソート結果
T1 :文章データ
T2 :単語リストデータ
T20 :単語リストデータ
T21 :単語リストデータ
W :出力データ
W1 :出力データ
W2 :出力データ
W3 :出力データ
W4 :出力データ
W5 :出力データ
W6 :出力データ