【文献】
谷本 太郁由 外1名,検索エンジンを用いた英文動詞誤り検出システム,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2012年12月 5日,第112巻第346巻,p.9-16
【文献】
水本 智也 外4名,英作文誤り訂正における複数の手法の利用に関する考察,情報処理学会研究報告 2012(平成24)年度 3 [CD−ROM],日本,一般社団法人情報処理学会,2012年10月15日,p.1-7
(58)【調査した分野】(Int.Cl.,DB名)
前記正誤判定手段では、抽出された前記動詞が、当該動詞に対応して抽出された全ての前記主語候補に対して人称及び数が一致しない場合にのみ、前記入力文に前記一致誤りが存在すると判定される
ことを特徴とする請求項1又は2記載の主語動詞の一致誤り検出装置。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について図面を参照しながら説明する。
【0012】
図1には、本発明に係る主語動詞の一致誤り検出装置を備えた英語学習システムの概略構成を表すブロック図が示されている。この図において、英語学習システム10は、英語の学習者であるユーザが作成した英文が入力される入力装置11と、入力装置11で入力された入力文について、主語の人称・数が動詞の人称・数に一致していない文法上の誤りを検出する主語動詞の一致誤り検出装置12とを含んで構成されている。なお、以下については、一文からなる入力文を前提に説明を行う。仮に、複数文からなる英文が入力装置11に入力された場合には、ピリオドの位置等に基づいて、一文単位で切り出しを行う処理がなされた後、一文毎に後述する処理が行われる。
【0013】
前記入力装置11は、図示省略したキーボードやタッチパネル等のデータ入力用機器により構成されているが、これに限定されるものでなく、紙媒体に記録された英文を画像データとして読み込み、当該画像データからテキストデータに変換するスキャナ装置、或いは、記憶媒体に記憶された英文に関するテキストデータを読み取り可能な装置等であっても良い。
【0014】
前記一致誤り検出装置12は、CPU等の演算処理装置、メモリやハードディスク等の記憶装置等からなるコンピュータによって構成され、当該コンピュータを後述する各手段として機能させるためのプログラムがインストールされている。ここで、特に限定されるものではないが、本実施形態の一致誤り検出装置12は、多くのユーザの入力装置11に対して、インターネット回線等のネットワーク回線を介してデータを送受信可能なサーバに設けられている。
【0015】
この一致誤り検出装置12は、入力装置11からの入力文の解析を行う入力文解析手段14と、入力文解析手段14の結果を用いて、前記入力文から、構文解析を行わずに、動詞と当該動詞に対応する主語候補を抽出する主語動詞候補抽出手段15と、主語動詞候補抽出手段15で抽出された動詞及び主語候補のそれぞれの人称及び数に関する情報から、入力文の主語と動詞の一致に関する正誤を判定する正誤判定手段16と、これら各手段14〜16での処理に際し必要となる各種データが記憶されたデータベース17とを備えている。
【0016】
前記入力文解析手段14は、入力文を構成する各単語に対して品詞解析を行う品詞解析部19と、品詞解析部19での解析結果を用い、入力文に対して句解析を行う句解析部20とからなる。
【0017】
前記品詞解析部19では、入力文中のスペースの存在により、構成する各単語が抽出され、データベース17に記憶されたデータ、すなわち、各単語の品詞名や意味等の辞書データ及び隣接する単語の品詞の種類の確率データ等から、各単語の品詞情報が特定される。つまり、ここでは、各単語に対し、品詞名の他に、当該品詞名に付随して人称、単数形又は複数形等の数、活用形等を表す符号(品詞ラベル)が付される。
【0018】
前記句解析部20では、品詞解析により得られた各単語の品詞情報に基づき、データベース17に記憶されたデータ、すなわち、前記辞書データ及び隣接する品詞及び句の種類の確率データ等から、各単語が入力文の文頭から順に、句及び節単位でグループ化される。つまり、ここでは、入力文が、名詞句、動詞句、形容詞句、副詞句、接続詞句等の句単位、また、名詞節、動詞節等の節単位で区分され、それぞれの句単位及び節単位で、その種類となる句及び節情報を表す符号(句ラベル、節ラベル)が付される。
【0019】
なお、品詞解析部19及び句解析部20での処理は、公知の手法に基づいて行われており、発明の本質部分ではないため、詳細な説明を省略する。
【0020】
前記主語動詞候補抽出手段15は、入力文に対し、動詞及び主語候補の抽出精度を向上させるための正規化処理を行う入力文正規化処理部22と、入力文正規化処理部22で正規化処理された後の入力文について、入力文の動詞及び主語候補を抽出する処理を行う抽出処理部23とを備えている。
【0021】
前記入力文正規化処理部22は、入力文の種類に基づいて、主語動詞の一致誤りの検出対象となる文の選定処理を行う対象選定処理部25と、名詞が並列された名詞句について、主語候補を正確に抽出可能にするための調整処理を行う並列名詞解析処理部26と、動詞と主語候補の抽出範囲を狭めるために入力文の分割処理を行う入力文分割処理部27と、入力文に対して主語になり得ない句を削除して余分な主語候補を減らす削除処理を行う不要句削除処理部28と、Thereから始まる主語と動詞の倒置構文に対し、主語と動詞の語順を通常の構文のように並び替える語順変換処理を行う倒置構文変換処理部29とにより構成されている。
【0022】
前記対象選定処理部25では、入力文について、疑問文及び命令文を除外し、平叙文のみが抽出される。すなわち、一致誤り検出装置12では、入力文が平叙文であるもののみについて主語動詞の一致誤りが検出される。具体的には、入力文に疑問符(?)が含まれる場合に、入力文は、疑問文と判定されて主語動詞の一致誤りの検出対象外とされる。また、抽出処理部23での後述する処理により、主語候補が得られなかった場合に、入力文は、命令文であると判定されて主語動詞の一致誤りの検出対象外とされる。
【0023】
前記並列名詞解析処理部26では、次の処理が行われる。例えば、
「bread and butter
are expensive」
のように、一つの名詞句「bread and butter」内の「bread」と 「butter」は、それぞれ単数の名詞であるが、それらが並列されているため、名詞句「bread and butter」は、複数扱いとして、文中の後(右側)に位置する動詞の人称・数が特定される。
そこで、並列名詞解析処理部26では、一つの名詞句内で名詞が、「and」又は「or」で並列されている場合、それら単語の品詞について、それぞれ「並列名詞」を意味する特別な符号(品詞ラベル)が付されて、それら単語に対応して記憶される。すなわち、ここでは、主語候補の数を調整し、主語動詞の一致誤りの検出を適正に行うための品詞ラベルの置換処理が行われ、正誤判定手段16での正誤判定に際し、動詞の数情報に影響を与える主語候補の単数、複数が正確に決定可能になる。
【0024】
前記入力文分割処理部27では、予め設定されてデータベース17に記憶された次の規則に基づき、入力文が所定の位置で分割される。なお、以下の説明において、入力文分割処理部27で分割された各部分をセグメントと称する。抽出処理部23での主語候補と動詞の抽出は、入力文分割処理部27で分割されたセグメント毎に行われる。
【0025】
先ず、所定の節の直前で入力文の分割が行われる。すなわち、句解析部20による入力文の解析により従属接続詞節が存在するか、又は、データベース17に予め記憶されたキーワードが含まれている場合には、当該従属接続詞節及び当該キーワードの直前で入力文が分割される。ここでのキーワードとしては、「but」、「if」、「because」、「since」、「though」、「although」、「how」、「what」、「when」、「whether」、「where」、「while」を例示できる。
【0026】
例えば、入力文が、
「The football player from Japan play for United when he thinks that it is right.」
である場合、前記キーワードの「when」の直前と、従属接続詞節の頭の「that」の直前とで入力文が分割され、3つのセグメントが得られる。
【0027】
加えて、品詞解析部19での解析結果により、入力文中に関係代名詞(「who」、「which」)が存在すると判断された場合、当該関係代名詞の前(左側)に存在する名詞句のうち、この関係代名詞に最も近い名詞句の直前でも入力文が分割される。
【0028】
前記不要句削除処理部28では、予め設定されてデータベース17に記憶された次の規則に基づき、不要句の削除が行われる。すなわち、先ず、句解析部20での入力文の解析結果から、各セグメントそれぞれについて、名詞句及び動詞句以外の句が削除される。ここで、前置詞が付いている名詞は主語にならないため、名詞句の中で、前置詞句の後(右側)に隣接する名詞句も削除される。
【0029】
例えば、入力文が、
「The football player with glasses play for Ajax.」
である場合、句解析部20では、「The football player」が名詞句、「with」が前置詞句、「glasses」が名詞句、「play」が動詞句、「for」が前置詞句、「Ajax」が名詞句と判定される。そこで、この場合、不要句削除処理部28では、前置詞句「with」、名詞句「glasses」、前置詞句「for」、及び名詞句「Ajax」が削除され、名詞句「The football player」と動詞句「play」が残ることになる。
【0030】
ここで、例外として、「a number of people」や「most of them」のように、数量詞として働く「名詞句+of」の後に隣接する名詞句は、この名詞句を形容詞的に修飾するため、例外規則として、削除が行われない。すなわち、第1の例外規則として、「a number of」、「a couple of」が存在する場合、「名詞句+of」の部分を削除し、後続する名詞句について、その名詞の数情報が複数扱いになるように、数情報を表す符号(品詞ラベル)が置換される。また、第2の例外規則として、「most of」、「any of」、「some of」、「many of」、「(a) few of」、「(a) little of」、「a lot of」、「(a) plenty of」の何れかが存在する場合、「名詞句+of」が削除される。
【0031】
前記倒置構文変換処理部29では、存在を意味する「There」を用いた主語と動詞の倒置構文について、通常の語順に戻す処理が行われ、抽出処理部23での動詞と主語候補の抽出処理を行い易くしている。具体的には、品詞解析部19での解析によって、存在を意味する「There」が判明するため、その符号(品詞ラベル)が検出され、「There」の直後に動詞句があるときに、「There」から、「There」の直後の動詞句の次の動詞句まで、或いは、次の動詞句がないときは文末まで、句のレベルで逆順に並び替えられる。例えば、入力文が、
「There is a key.」
である場合、倒置構文変換処理部29において、
「a key is There.」
に並び替えられる。
【0032】
前記抽出処理部23では、予め設定されてデータベース17に記憶された次の規則に基づき、入力文正規化処理部22で正規化された入力文に対して、セグメント毎に、次のように動詞と当該動詞の主語候補とが抽出される。
【0033】
先ず、動詞については、入力文解析手段14で得られた解析結果すなわち品詞情報や句情報を利用して抽出される。ここで、主語動詞の一致の制約を受けるのは、Be動詞を除くと現在形の動詞であるため、先ず、Be動詞以外の動詞については、動詞非3人称現在又は動詞3人称現在の品詞ラベルが付された動詞について抽出される。ここで、品詞解析部19において、動詞非3人称現在と解析すべきところ、動詞原型と解析してしまう品詞解析の解析ミスにも対応するため、動詞原型の品詞ラベルが付された動詞も抽出対象とされる。但し、「can」や「will」などの助動詞と共に用いられている動詞原型は、抽出対象外とされる。また、「To read」のようなTo不定詞については、動詞句と解析されるが、ここでの「To」が、品詞情報としてTo不定詞と解析され、「read」は、動詞として抽出対象外とされる。
【0034】
一方、Be動詞については、後述するように単語の表層情報に基づいて一致誤りの検出が行われるようになっており、抽出処理部23では、「am」、「are」、「is」、「was」、「were」の五種類のBe動詞が存在する場合に、それらが動詞として抽出される。
【0035】
また、主語候補については、以上の処理で抽出された動詞の前(左側)にある名詞句内の名詞、代名詞、数詞が抽出される。この際、動詞の前(左側)にあるTo不定詞や動名詞は、主語になり得るが、句解析部20で動詞句として解析されてしまうため、データベース17に予め記憶されたパターンによるパターンマッチング処理が行われ、主語候補として抽出される。この際、To不定詞の場合は、便宜上、不定詞の「To」が主語候補とされ、動名詞の場合は、動名詞となる単語が主語候補とされる。
【0036】
そして、抽出された各主語候補について人称と数が決定される。普通名詞と固有名詞については、全て三人称とされる。また、これら名詞の単数、複数等の数情報については、品詞解析部19で獲得した品詞情報とともに、入力文正規化処理部22で行われた単語の数情報の調整に基づいて決定される。ここで、主語候補のうち、品詞解析部19で獲得した品詞情報が、原形で単数名詞としても複数名詞としても使用できる集合名詞である場合には、単数と複数の二つの数を持つと決定される。また、一つの動詞に対して複数の主語候補が存在する場合には、主語候補となる名詞の数情報に関係無く、それぞれ、数情報が複数とされる。すなわち、名詞の数情報は、品詞ラベルに基づき、下表に示される対応規則に従い決定される。一方、代名詞については、人称・数が決定されず、後述するように単語の表層情報に基づいて一致誤りの検出が行われる。
【0038】
なお、ここで、入力文のスペル誤りにより受ける影響を低減するために、図示しないスペルチェッカを用いて、スペルミスのあった語を正しく修正した上で、動詞及び主語候補を抽出するようにしても良い。すなわち、スペルチェッカによりスペルミスの有無を調べ、スペルミスが発見された場合に、誤りの訂正候補を取得し、当該候補となる語につき、前述のようにして人称・数を決定することもできる。
【0039】
前記正誤判定手段16では、データベース17に予め記憶された下表の検出規則に基づいて、主語動詞の一致に関する正誤判定が行われる。なお、下表においては、主語動詞の人称・数が一致している場合を「○」で表し、主語動詞の人称・数が一致していない場合を「×」で表している。すなわち、ここでは、抽出処理部23で抽出された動詞それぞれについて、対応する各主語候補との間で人称・数が合っているか否か判定される。その結果、一つの動詞に対する主語候補全ての人称・数が誤っているときのみ、主語動詞の一致が誤っていると判定される。換言すれば、動詞に対応する主語として、どの主語候補を選んだとしても、人称・数が一致しない場合のみ誤りと検出される。
【0041】
次に、前記一致誤り検出装置12の処理手順につき、
図2を用いて説明する。
【0042】
先ず、入力文が入力された後、入力文解析手段14により、入力文を構成する各語の品詞解析及び句解析を行う入力文解析処理が行われる(ステップS101)。
【0043】
その後、入力文正規化処理部22で入力文の正規化処理が行われる。
【0044】
具体的には、先ず、対象選定処理部25で、入力文が疑問文である場合に、主語動詞の一致誤りの検出対象から除外する対象除外処理が行われる(ステップS102)。
【0045】
次に、所定の名詞句に対し、品詞解析部19での品詞解析により特定された単語の品詞ラベルの置換処理が行われる(ステップS103)。すなわち、ここでの置換処理は、並列名詞解析処理部26で、一つの名詞句内で名詞が、「and」又は「or」で並列されている場合に、それら単語の品詞について、それぞれ並列名詞を表す品詞ラベルに変更される。また、不要句削除処理部28で、前記第1の例外規則に該当する場合、つまり、
「a number of」、「a couple of」が存在する場合、「名詞句+of」の部分を削除し、後続する名詞句について、その名詞の数情報を複数にするように品詞ラベルが変更される。
【0046】
その後、入力文分割処理部27で、入力文をセグメントに分割する入力文分割処理が行われる(ステップS104)。ここで、前述した規則により入力文の途中で分割できない場合は、一つのセグメントとして取り扱われる。
【0047】
そして、不要句削除処理部28で、所定の名詞句及び動詞句以外の句が削除される不要句削除処理が行われる(ステップS105)。ここで削除された句は、主語動詞の一致誤りの検出対象から除外される。
【0048】
次に、倒置構文変換処理部29で、存在を意味する「There」を用いた主語と動詞の倒置構文がある場合に、句のレベルで逆順に並び替える語順変換処理が行われる(ステップS106)。
【0049】
以上の入力文の正規化処理が終了すると、抽出処理部23で、セグメント毎に、動詞と対応する主語候補とを抽出する主語動詞候補抽出処理が行われる(ステップS107)。この際、動詞の前(左側)に、主語候補が一つも検出できなければ、対象選定処理部25で命令文であると判定され、主語動詞の一致誤りの検出対象から除外される。
【0050】
最後に、セグメント毎に抽出された動詞と主語候補について、正誤判定手段16で主語動詞の一致に関する判定処理が行われ(ステップS108)、その結果が出力される。
【0051】
なお、入力文の正規化処理の手順ついては、前述の処理順序が必須でなく、後の処理に影響を与えない限りにおいて、処理順序を変更することも可能である。
【0052】
本発明者は、主語動詞の一致が誤っているものを含む日本人英語学習者(大学生)の書いた多数の英文について、前記一致誤り検出装置12による主語動詞の一致誤りの検出の正確性を評価する実験を行ったところ、構文解析を利用して行う従来手法に比べ、主語動詞の一致誤りをより正確に検出できる結果が得られた。
【0053】
なお、前述したように、一致誤り検出装置12をサーバに設ける態様の他に、各ユーザが保有するコンピュータに前記プログラムをインストールすることにより、当該コンピュータを一致誤り検出装置12として機能させることも可能である。
【0054】
また、本発明は、英語学習システム10のみならず、英語による翻訳文のチェック等、英語学習以外の用途にも利用することができる。
【0055】
その他、本発明における装置各部の構成は図示構成例に限定されるものではなく、実質的に同様の作用を奏する限りにおいて、種々の変更が可能である。