IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 言語研究開発合同会社の特許一覧

特開2023-110106言語学習支援装置、プログラム及び情報処理方法
<>
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図1
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図2
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図3
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図4
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図5
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図6
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図7
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図8
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図9
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図10
  • 特開-言語学習支援装置、プログラム及び情報処理方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023110106
(43)【公開日】2023-08-09
(54)【発明の名称】言語学習支援装置、プログラム及び情報処理方法
(51)【国際特許分類】
   G09B 19/06 20060101AFI20230802BHJP
   G06Q 50/20 20120101ALI20230802BHJP
【FI】
G09B19/06
G06Q50/20
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2020098953
(22)【出願日】2020-06-05
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.THUNDERBOLT
(71)【出願人】
【識別番号】520201064
【氏名又は名称】言語研究開発合同会社
(74)【代理人】
【識別番号】110002789
【氏名又は名称】弁理士法人IPX
(72)【発明者】
【氏名】西村 拓途
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC34
(57)【要約】
【課題】客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供すること。
【解決手段】本発明の一態様によれば、言語学習支援装置であって、単語抽出部と、カウント部と、ソート部とを備え、前記単語抽出部は、文章に含まれる単語を抽出するように構成され、前記カウント部は、前記単語及びフレーズの出現回数をカウントするように構成され、前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、前記ソート部は、カウントされた前記フレーズを前記出現回数に基づきソートするように構成される、ものが提供される。
【選択図】図1
【特許請求の範囲】
【請求項1】
言語学習支援装置であって、
単語抽出部と、カウント部と、ソート部とを備え、
前記単語抽出部は、文章に含まれる単語を抽出するように構成され、
前記カウント部は、前記単語及びフレーズの出現回数をカウントするように構成され、
前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、
前記ソート部は、カウントされた前記フレーズを前記出現回数に基づきソートするように構成される、
もの。
【請求項2】
請求項1に記載の言語学習支援装置において、
設定部をさらに備え、
前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、
前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、
もの。
【請求項3】
請求項1又は請求項2に記載の言語学習支援装置において、
重複削除部をさらに備え、
前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、
前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、
もの。
【請求項4】
請求項3に記載の言語学習支援装置において、
前記重複削除部は、複数の前記フレーズのうち、1つの前記採用フレーズを除いた残りを削除するように構成される、
もの。
【請求項5】
請求項4に記載の言語学習支援装置において、
前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、
もの。
【請求項6】
請求項5に記載の言語学習支援装置において、
前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、
もの。
【請求項7】
請求項5又は請求項6に記載の言語学習支援装置において、
前記採用フレーズに含まれる前記単語数は、3以上20以下である、
もの。
【請求項8】
プログラムであって、
コンピュータを請求項1~請求項7の何れか1つに記載の言語学習支援装置として機能させる、
もの。
【請求項9】
情報処理方法であって、
単語抽出ステップと、カウントステップと、ソートステップとを備え、
前記単語抽出ステップでは、文章に含まれる単語を抽出し、
前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、
前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、
前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきにソートする、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語学習支援装置、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
教育者が言語学習に関する教材を作成する際、学習者が効率よく言語学習できるように、日常生活やビジネスの中でよく使用される表現を優先的に収録した教材を作成するのが一般的である。特許文献1には、教材の作成を支援する教材作成支援システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2014-228957号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、言語学習教材に収録する表現を選択する際、どのような表現が頻繁に使用されているかの判断は、教材作成者の経験則や、推測、勘等に基づいて行われる場合が多く、教材の内容が教材作成者の主観に左右されてしまうという問題が生じていた。
【0005】
本発明では上記事情を鑑み、客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供することとした。
【課題を解決するための手段】
【0006】
本発明の一態様によれば、言語学習支援装置であって、単語抽出部と、カウント部と、ソート部とを備え、前記単語抽出部は、文章に含まれる単語を抽出するように構成され、前記カウント部は、前記単語及びフレーズの出現回数をカウントするように構成され、前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、前記ソート部は、カウントされた前記フレーズを前記出現回数に基づきソートするように構成される、ものが提供される。
【0007】
これにより、客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供することができる。
【図面の簡単な説明】
【0008】
図1】第1の実施形態に係る言語学習支援装置3のハードウェア構成を示すブロック図である。
図2】言語学習支援装置3の機能を示す機能ブロック図である。
図3】言語学習支援装置3の動作の流れを示すアクティビティ図である。
図4】文章データT1と、処理部333による変換処理の結果とを示す図である。
図5】処理部333による変換処理の結果を示す図である。
図6】処理部333による変換処理の結果を示す図である。
図7】ソート部336によるソート結果Sを示す図である。
図8】重複削除前後のソート結果Sを示す図である。
図9】表示部34に表示されるソート結果Sの例である。
図10】処理部333による変換処理前後のフレーズを示した図の一例である。
図11】第2の実施形態に係るシステム1の構成概要を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0010】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0011】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
【0012】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0013】
1.ハードウェア構成(第1の実施形態)
本節では、本実施形態のハードウェア構成について説明する。図1は、第1の実施形態に係る言語学習支援装置3のハードウェア構成を示すブロック図である。言語学習支援装置3は、コンピュータに専用プログラムがインストールされることによって実施される。言語学習支援装置3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
【0014】
(通信部31)
通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
【0015】
(記憶部32)
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される言語学習支援装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
【0016】
(制御部33)
制御部33は、言語学習支援装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、言語学習支援装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(図2参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
【0017】
<表示部34>
表示部34は、例えば、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、言語学習支援装置3の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部33における出力部338の制御信号に応答して、表示画面を選択的に表示しうる。これにより、表示部34は、ソート結果Sをユーザが視認可能に表示することができる。
【0018】
<入力部35>
入力部35は、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御や演算を実行しうる。
【0019】
特に、ユーザは、入力部35を用いてフレーズに含める単語数の上限値や、自然言語処理の可否、採用フレーズ4の単語数、ソート結果Sの表示条件等、文章データT1の処理条件等を入力することができる。
【0020】
2.機能構成
本節では、本実施形態の機能構成について説明する。図2は、言語学習支援装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
【0021】
具体的には、言語学習支援装置3(制御部33)は、受付部331と、設定部332と、処理部333と、単語抽出部334と、カウント部335と、ソート部336と、重複削除部337と、出力部338とを備える。
【0022】
(受付部331)
受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、通信部31、記憶部32又は入力部35を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、文章データT1と、文章データT1の処理設定に関する情報とを入力データとして受け付ける。文章データT1及び文章データT1の処理設定に関する情報は、言語学習支援装置3における記憶部32に予め記憶されているものを読み出すようにしてもよいし、外部メディアに記憶されたものを読み出すようにしてもよい。あるいはユーザが、入力部35を用いて、これらのデータ又は情報を直接作成してもよいし、通信部31を介して、外部からこれらのデータ又は情報をダウンロードするようにしてもよい。
【0023】
(設定部332)
設定部332は、受付部331が受け付けた種々の情報に基づき、言語学習支援装置3による処理条件を設定する。具体的には、例えば、設定部332は、文章データT1の処理設定に関する情報に基づき、フレーズに含める単語数の上限値や、自然言語処理の有無、採用フレーズ4に含まれる単語数、ソート結果Sの表示条件等、文章データT1の処理条件を設定する。設定部332による各種設定は、設定ファイルとして記憶部32に記憶される。すなわち、設定部332は、該処理条件に基づき各種設定を行うことで、受付部331が受け付けた文章データT1の処理条件を、言語学習支援装置3の情報処理に反映する。なお、処理条件の詳細は次節で詳述する。
【0024】
(処理部333)
処理部333は、文章データT1を含むファイル及び文章データT1に含まれる単語、記号、数字等を設定部332による設定に基づき処理する。具体的には、文章データT1を含むファイルを結合・分割し、文章データT1の書式を変換し、任意の記号が含まれる単語及びフレーズを削除する。
【0025】
(単語抽出部334)
単語抽出部334は、文章中の所定入力に基づき、文章に含まれる単語を抽出する。なお、単語抽出部334は、単語とともに、文章に含まれる記号及び数字の抽出を行うことに留意されたい。
【0026】
(カウント部335)
カウント部335は、単語及びフレーズの出現回数をカウントするように構成される。また、上限値が設定されている場合、カウント部335は、設定された上限値以下の単語及びフレーズの出現回数をカウントするように構成される。
【0027】
(ソート部336)
ソート部336は、カウントされた単語及びフレーズを出現回数に基づきソートする。また、採用フレーズ4が決定された場合、ソート部336は、採用フレーズ4を出現回数に基づきソートする。これにより、出現回数の多い単語及びフレーズがランキング形式で示されることとなる。
【0028】
(重複削除部337)
重複削除部337は、ソート結果Sに含まれる複数のフレーズに同一の単語の組み合わせが含まれる場合、複数のフレーズのうち一部を削除することで、採用フレーズ4を決定するように構成される。
【0029】
(出力部338)
出力部338は、ソート結果Sを出力し、これが言語学習支援装置3の表示部34に表示される。出力部338が出力するソート結果Sとは、例えば、ソート結果S18~ソート結果S22であり、詳細は後述する。
【0030】
3.情報処理の詳細
本節では、前述した言語学習支援装置3の情報処理について説明する。図3は、言語学習支援装置3の動作の流れを示すアクティビティ図である。以下、図3における各アクティビティに沿って説明をする。
【0031】
まず、ユーザは、入力部35を用いて、文章データT1及び文章データT1の処理設定に関する情報を、言語学習支援装置3に予めインストールされた専用プログラムに読み込ませる。受付部331は、文章データT1及び文章データT1の処理設定に関する情報を受け付ける(アクティビティA1)。なお、受付部331は、自然言語処理のなされた文章データT1を受け付けてもよい。
【0032】
文章データT1のファイル形式は、例えばテキスト形式(.txt又は.csv)である。文章データT1は、複数のファイルからなってもよいし、単一のファイルでもよい。また、文章データT1は、言語コーパスであることが好ましいが、学術論文、新聞、演説等、何らかの言語により構成された資料であれば、種類は問わない。さらに、文章データT1は、数億単語以上で構成されることが好ましいが、これに限定されず、1000単語以下でもよい。文章データT1の処理設定に関する情報とは、例えば、フレーズに含める単語数の上限値、自然言語処理に関する設定、ファイルの分割単位に関する設定等情報である。なお、文章データT1の言語は、特に限られないが、例えば、英語、中国語、フランス語、ドイツ語、スペイン語、ロシア語、ポルトガル語、ヒンドゥー語、アラビア語等である。本実施形態では、英語を例に説明している。
【0033】
次に、設定部332は、アクティビティA1において受け付けた処理設定に基づき、フレーズに含める単語数の上限値を設定する(アクティビティA2)。また、この際、自然言語処理に係る設定、採用フレーズ4の単語数等、文章データT1の処理条件が設定される。
【0034】
次に、処理部333は、所定の単語数ごとにファイルを分割する(アクティビティA3)。所定の単語数は、設定部332の処理設定に基づき、例えば、1万語、100万語等である。ファイルが複数ある場合、処理部333は、ファイルの分割前に全てのファイルを結合してから、分割を行うことが好ましい。例えば、ファイルに含まれる単語数の合計が10億語である場合、処理部333は、100万語ごとに1000ファイルに分割する。
【0035】
その後、処理部333は、アクティビティA2においてなされた設定に基づき、文章データT1に含まれる文字、数字及び記号を、所定の形式に変換する(アクティビティA4)。また、処理部333は、文章データT1に含まれる改行を削除する。具体的には、例えば、処理部333は、文章中の全角文字(英数字及び記号を含む)を、半角文字に変換するとともに、アルファベットの大文字を小文字に変換する。また、処理部333は、文章データT1に含まれる改行を削除する。
【0036】
図4は、文章データT1と、処理部333による変換処理の結果とを示す図である。図4に示される文章データT1は、アクティビティA1において受け付けた文章データT1である。中間データT10は、処理部333によって、文章データT1に含まれる改行が削除された場合の処理結果である。また、中間データT11は、処理部333によって、文章に含まれる大文字が小文字に変換された場合の処理結果である。これにより、表記のゆれがあることで文章中の同一の意味をもつ文字、記号、数字等が別々にカウント部335によってカウントされることを防ぐことができる。
【0037】
また、設定部332によって、自然言語処理を行う処理設定がされている場合、処理部333は、文章中の各単語を品詞へ置き換える。中間データT12は、文章の一部“my father’s dragon chapter one my father meets”が変換された結果、「限定詞 限定詞 名詞 名詞 数字 限定詞 名詞 動詞」へと置き換えられた場合の処理結果の例である。なお、中間データT12では、単語の種類に関わらず自然言語処理を行う例を示したが、設定部332の設定に基づき、特定の単語のみについて、かかる処理を行ってもよい。例えば、設定部332が“a”又は“the”のみについて、自然言語処理を行うよう設定していた場合、“a”又は“the”のみ自然言語処理が行われてもよい。
【0038】
次に、単語抽出部334は、文章中の所定入力(例えばスペース、タブ記号又は改行)に基づき、文章データT1に含まれる単語、記号及び数字(以後、単語等)を抽出する(アクティビティA5)。また、単語等が抽出されると、処理部333は、抽出された単語等を文章の登場順に並べた単語リストを生成するとともに、該単語リストに基づき上限値以下の単語等で構成されるフレーズを含むフレーズリストを生成する(アクティビティA6)。なお、処理部333は、単語とともに抽出した記号及び数字を、それぞれ一単語とみなして単語リスト及びフレーズリストを作成することに留意されたい。
【0039】
ここで、フレーズとは、抽出された複数の単語等を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。図5及び図6は、処理部333による変換処理の結果を示す図である。例えば、上限値が2である場合、単語抽出部334によって文章データT1に含まれる単語が抽出された後、処理部333は、単語リスト(例えば、中間データT13)を生成する(図5)。また、処理部333は、抽出した単語を、単語リストに基づき、2単語ごとにフレーズとしてリストアップしたフレーズリスト(例えば、中間データT15)を生成する。
【0040】
より具体的には、“my”、“father’s”、“dragon”、“chapter”、“one”、が単語として抽出された場合、2単語のフレーズとしては、文章の登場順に“my father’s”、“dragon chapter”と、“father’s dragon”、“chapter one”とがリストアップされる。すなわち、連続している任意の組合せをフレーズとしてリストアップする。より一般化すると、n単語のフレーズの場合は、n通りのリストアップが考えられる。このようにすることで、漏れのないリストアップが実現される。その結果、処理部333によって、文章データT1は、2つのリスト(単語リスト及び2単語のフレーズリスト)に変換される。なお、任意の連続する組合せを列挙して説明するのは煩雑であるため、以下では、連続している任意の組合せのうち、代表的な1つを選択して代表例として説明するものとする。
【0041】
上限値が3である場合、処理部333は、前述した単語リスト及び2単語を含むフレーズリストに加え、3単語のフレーズを含む3つのフレーズリストを生成する。かかる場合、抽出された単語は文章の登場順に、“my father’s dragon”が3単語のフレーズの代表例としてリストアップされる(不図示)。
【0042】
上限値が5である場合、前述した3つのリストに加え、4単語を含むフレーズ及び5単語を含むフレーズのフレーズリストを生成し、合わせて5つの単語リスト又はフレーズリストが生成される。なお、本実施形態において、フレーズリストを作成する際、記号及び数字はそれぞれひとつの単語として扱うことに留意されたい。すなわち、単語リストに“little”、“boy”、“.”がリストアップされ、これらが一つのフレーズとして扱われる場合、“little boy .”が3単語のフレーズとみなされる。
【0043】
単語リスト及びフレーズリストが生成されると、処理部333は、処理設定に基づき、単語とともに抽出された所定の記号と、所定の記号を含むフレーズとを削除する(アクティビティA7)。例えば、設定部332によって、コンマ、ピリオド、クエッションマーク、ダブルクォーテーションマーク等の記号を削除するように設定された場合、処理部333は、中間データT13を生成後、かかる記号を削除して中間データT14を生成する。また、2単語のフレーズで構成されるフレーズリストにおいては、図6に示されるように、処理部333は、中間データT15で示されるフレーズのうち、上記の記号を含む“boy .”“street .”“? ””に係るフレーズを削除し、中間データT16を生成する(図6)。なお、ここで生成された単語リスト(例えば、中間データT14)及びフレーズリスト(例えば、中間データT16)は、テキスト形式で生成されることが好ましい。
【0044】
所定の記号が削除されると、カウント部335は、設定された上限値以下の単語及びフレーズの出現回数をカウントする(アクティビティA8)。また、出現回数がカウントされると、ソート部336は、カウントされたフレーズを出現回数に基づきソートする。すなわち、ソート部336は、文章中に出現した単語又はフレーズを、それぞれ出現回数の多い順に並べる。図7は、ソート部336によるソート結果Sを示す図である。て表示される。例えば、ソート結果S10は、単語リストに含まれる単語の出現回数が多い順に並べたものである。また、ソート結果S11は、2単語のフレーズリストに含まれるフレーズを出現回数が多い順に並べたものである。
【0045】
また、複数のフレーズに同一の単語の組み合わせが含まれる場合、重複削除部337は、複数のフレーズのうち一部を削除することで、採用フレーズ4を決定する(アクティビティA9)。ここで、採用フレーズ4は、フレーズに含まれる単語数に基づき決定されることが好ましい。より具体的には、採用フレーズ4は、フレーズに含まれる単語数が最大又は最小のフレーズであることが好ましい。なお、採用フレーズ4を最大のフレーズとするか、最小のフレーズとするかの決定及び採用フレーズ4に含まれる単語数に係る決定は、設定部332によってなされた文章データT1の処理設定に基づき行われる。
【0046】
ここで、採用フレーズ4とは、重複削除部337によって削除されずに残ったフレーズである。図8は、重複削除前後のソート結果Sを示す図である。図8において、上限値が3に設定されるとともに、採用フレーズ4をフレーズに含まれる単語数が最大のフレーズとする設定がなされた場合の例が示される。例えば、重複削除前のソート結果S12~ソート結果S14を参照すると、文章中に“he”という単語が3回、“he is”というフレーズが2回、“he is a student”というフレーズが2回出現した場合、重複削除部337は、それぞれのソート結果Sで重複している“he”及び“he is”を削除するとともに、採用フレーズ4を“he is a student”に決定し、ソート結果S15~ソート結果S17を生成する。すなわち、複数のフレーズに同一の単語の組み合わせが含まれる場合、重複削除部337は、複数のフレーズのうち、1つの採用フレーズ4を除いた残りを削除する。これにより、ユーザがソート結果Sを学習に用いる際、単語やフレーズの重複のないソート結果Sを確認することが可能となるので、学習者が効率よく言語学習することができる。
【0047】
ここで、フレーズに含まれる単語数が最大のフレーズを採用フレーズ4とする設定がなされた場合の例として、図8を参照されたい。図8において、ソート結果S12~ソート結果S14において重複する単語又はフレーズがある場合、単語数が最大のソート結果S14以外のソート結果S12及びソート結果S13に含まれるフレーズが削除されることとなる。すなわち、ソート結果S14に含まれるフレーズが、優先的に採用フレーズ4として残される。より具体的には、重複削除前後のソート結果Sを比較すると、“he”、“is”、“a”、”“he is”及び“is a”は、それぞれソート結果S14のフレーズに含まれる単語の組み合わせと重複するものとして削除され、ソート結果S14においてこれらの単語及びフレーズを含む“he is a student”と、“she has the”とが残ることとなる。なお、ソート結果S16の“she is”は、ソート結果S14に含まれるフレーズと重複しないので、削除されず残されることとなる。
【0048】
また、採用フレーズ4に含まれる単語数は、1を下限とし、上限はないが、3以上20以下であることが好ましい。具体的には、3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20であり、ここで例示した数値の何れか2つの間の範囲内であってもよい。このような構成により、例えば、採用フレーズ4に含まれる単語数が4と設定され、単語数が3~20の各フレーズにおいて、それぞれ同一の単語の組み合わせが含まれる場合、単語数が3及び5~20のフレーズが削除され、単語数が4のフレーズが採用フレーズ4として残されることとなる。その結果、言語学習に適した単語数のフレーズが優先的に採用フレーズ4として残され、学習者はより効率的に言語学習をすることが可能となる。
【0049】
その後、ソート部336は、採用フレーズ4を出現回数に基づきソートする(アクティビティA10)。そして、自然言語処理が行われていない場合、出力部338は、かかる結果を出力する(アクティビティA11)。そして、表示部34は、出力されたソート結果Sを表示する。これにより、ユーザは、文章中での出現回数の多い単語又はフレーズをランキング形式で確認することが可能となり、学習者は、客観的なデータに基づいた言語学習が可能となる。
【0050】
図9は、表示部34に表示されるソート結果Sの例である。ソート結果S18、ソート結果S19及びソート結果S20は、それぞれ2単語、3単語、5単語のフレーズにおけるソート結果Sである。該ソート結果Sは、設定部332が設定したソート結果Sの表示設定に基づき表示される。ソート結果Sの表示設定とは、例えば、出現頻度が2回以上の単語及びフレーズのみを表示する設定や、出現頻度が上位10位までの単語及びフレーズのみを表示する設定である。ソート結果S18~ソート結果S22は、出現頻度が3回以上の単語及びフレーズのみを表示する設定に基づき表示されたソート結果Sの例である。
【0051】
ここで、自然言語処理が行われていた場合、処理部333は、アクティビティA4において品詞に置き換えられた採用フレーズ4に含まれる単語を、所定の文字に変換する(アクティビティA12)。図10は、処理部333による変換処理前後のフレーズを示した図の一例である。図10に示されるように、
処理部333は、文章に含まれる所定の単語が所定の品詞に置換されたフレーズを、所定の文字に変換する。すなわち、処理部333は、“be going to 動詞”、“have to 動詞”は、“be going to do”、“have to do”に変換する(ソート結果S24及びソート結果S24参照)。
【0052】
その後、出力部338は、ソート結果Sを出力する(アクティビティA13)。なお、自然言語処理が行われている場合であっても、アクティビティA12をスキップして、ソート結果S22のように、各単語が所定の品詞に置き換えられたままの状態でソート結果Sを出力してもよい。
【0053】
また、ソート結果S21で示されるように、ソート部336は、採用フレーズ4を、単語数に関わらず、出現回数に基づきソートしてもよい。具体的には、アクティビティA10又はアクティビティA12の後、処理部333は、ソート結果S18~ソート結果S20を合算し、かかる処理結果をアクティビティA11又はアクティビティA13において、ソート部336が出現回数に基づきソートしてもよい。
【0054】
ソート結果S21は、上限値が5と設定された場合に、採用フレーズ4を、それぞれのフレーズに含まれる単語数に関わらずソートした結果である。すなわち、フレーズの単語数別の出現回数のランキングではなく、単語数の異なるソート結果Sをまとめて示した総合ランキングが示される。
【0055】
このように、第1の実施形態に係る言語学習支援装置3によれば、文章データT1を入力として、実際に使用される頻度に基づいて、単語やフレーズのランキングを生成することができる。このようなランキングを用いることで、より客観的なデータに基づいた言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、専用プログラムをインストールした言語学習支援装置3を使用するため、オフライン環境でも使用可能であり、大容量の文章データT1を扱うことに適している。
【0056】
4.第2の実施形態
本節では、第2の実施形態に係る言語学習支援装置3及びこれを含むシステム1について説明する。なお、第1の実施形態に係る言語学習支援装置3と同様の構成や特徴については、説明を省略する。図11は、本実施形態に係るシステム1の構成概要を示す図である。システム1は、端末2と、言語学習支援装置3とを備え、これらが電気通信回線を通じて通信可能に構成される。
【0057】
端末2は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて言語学習支援装置3にアクセス可能なものであれば、その形態は問わない。端末2は、通信部と、記憶部と、制御部と、表示部と、入力部とを有し、これらの構成要素が端末2の内部において通信バスを介して電気的に接続されている。
【0058】
通信部、記憶部、制御部、表示部及び入力部の具体的な説明については、第1節で説明した言語学習支援装置3における通信部31、記憶部32、制御部33、表示部34及び入力部35の記載を参照されたい。
【0059】
言語学習支援装置3は、ハードウェア構成として、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。詳細は、第1節で説明した言語学習支援装置3における通信部31、記憶部32及び制御部33の記載を参照されたい。また、第2の実施形態における言語学習支援装置3(制御部33)は、機能構成として、受付部331と、設定部332と、処理部333と、単語抽出部334と、カウント部335と、ソート部336と、重複削除部337と、出力部338とを備える。
【0060】
特に、受付部331は、ユーザが使用する端末2からネットワーク及び通信部31を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、端末2から文章データT1と、言語学習支援装置3における文章データT1の処理設定に関する情報とを受け付ける。
【0061】
また、出力部338は、ソート結果Sを出力し、これが端末2の表示部に表示される。あるいは、出力部338は、ソート結果Sを端末2に表示させるためのレンダリング情報だけを生成してもよい。
【0062】
このように、第2の実施形態に係るシステム1によれば、文章データT1を入力として、実際に使用される頻度に基づいて、単語やフレーズのランキングを生成することができる。このようなランキングを用いることで、より客観的なデータ基づいた言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、ユーザが端末2を介して、外部サーバである言語学習支援装置3にアクセス可能に構成されており、多くのユーザがより手頃にランキングを生成することができる。
【0063】
5.その他
本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
【0064】
(1)本実施形態の態様は、プログラムであってもよい。このプログラムは、コンピュータを言語学習支援装置3として機能させる。
(2)言語学習支援装置3には、上記のプログラムが予めインストールされていてもよいし、コンピュータにこれをインストールして事後的に言語学習支援装置3として機能するように実施してもよい。
(3)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、単語抽出ステップと、カウントステップと、ソートステップとを備える。単語抽出ステップでは、文章に含まれる単語を抽出する。カウントステップでは、設定された上限値の範囲内で、単語及びフレーズの出現回数をカウントする。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソートステップでは、カウントされたフレーズを出現回数に基づきにソートする。
【0065】
さらに、次に記載の各態様で提供されてもよい。
前記言語学習支援装置において、設定部をさらに備え、前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、もの。
前記言語学習支援装置において、重複削除部をさらに備え、前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、もの。
前記言語学習支援装置において、前記重複削除部は、複数の前記フレーズのうち、1つの前記採用フレーズを除いた残りを削除するように構成される、もの。
前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、もの。
前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、もの。
前記言語学習支援装置において、前記採用フレーズに含まれる前記単語数は、3以上20以下である、もの。
プログラムであって、コンピュータを前記言語学習支援装置として機能させる、もの。
情報処理方法であって、単語抽出ステップと、カウントステップと、ソートステップとを備え、前記単語抽出ステップでは、文章に含まれる単語を抽出し、前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきにソートする、方法。
もちろん、この限りではない。
【0066】
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0067】
1 :システム
2 :端末
3 :言語学習支援装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
332 :設定部
333 :変換部
334 :単語抽出部
335 :カウント部
336 :ソート部
337 :重複削除部
338 :出力部
4 :採用フレーズ
S :ソート結果
S10 :ソート結果
S11 :ソート結果
S12 :ソート結果
S13 :ソート結果
S14 :ソート結果
S15 :ソート結果
S16 :ソート結果
S17 :ソート結果
S18 :ソート結果
S19 :ソート結果
S20 :ソート結果
S21 :ソート結果
S22 :ソート結果
S23 :ソート結果
S24 :ソート結果
T1 :文章データ
T10 :中間データ
T11 :中間データ
T12 :中間データ
T13 :中間データ
T14 :中間データ
T15 :中間データ
T16 :中間データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11