(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025023463
(43)【公開日】2025-02-17
(54)【発明の名称】採点自動化支援システム、プログラム及び方法
(51)【国際特許分類】
G09B 19/00 20060101AFI20250207BHJP
【FI】
G09B19/00 H
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023127600
(22)【出願日】2023-08-04
(71)【出願人】
【識別番号】507050584
【氏名又は名称】北辰図書株式会社
(71)【出願人】
【識別番号】500242258
【氏名又は名称】ソフネック株式会社
(74)【代理人】
【識別番号】100120916
【弁理士】
【氏名又は名称】佐藤 壽見子
(72)【発明者】
【氏名】桑折 美奈子
(72)【発明者】
【氏名】金子 和憲
(72)【発明者】
【氏名】若林 孝夫
(72)【発明者】
【氏名】吉田 文一
(72)【発明者】
【氏名】竹内 栄
(72)【発明者】
【氏名】本永 雅俊
(72)【発明者】
【氏名】石井 明久
(57)【要約】
【課題】日本語による記述式問題の完全な採点自動化を実現するための自動採点基準を作成するシステムに関する。
【解決手段】採点対象とする記述式設問の全答案文からサンプルとして取り出した答案文と手動による目視採点結果を取得する答案文取得手段401と、自動採点のための採点基準を取得する採点基準取得手段405と、最新の採点基準に基づいて答案文を自動採点する自動採点手段407と、目視採点結果と自動採点の結果とを対比する採点結果対比手段408と、対比の結果が不一致である答案文が残存する場合、採点基準を更新する採点基準更新手段409と、すべての答案文の目視採点結果と自動採点結果との一致率が所定の閾値を超えた場合、用いた採点基準を当該設問の採点基準として確定する確定採点基準出力手段410を備える。採点基準には、採点基準文字列と採点ロジックが含まれる。
【選択図】
図5
【特許請求の範囲】
【請求項1】
採点対象とする記述式設問の全答案文からサンプルとして取り出した答案文と手動による目視採点結果を取得する答案文取得手段と、
自動採点のための採点基準を取得する採点基準取得手段と、
最新の採点基準に基づいて前記答案文を自動採点する自動採点手段と、
前記目視採点結果と前記自動採点の結果とを対比する採点結果対比手段と、
前記対比の結果が不一致である答案文が残存する場合、採点基準を更新する採点基準更新手段と、
すべての答案文の目視採点結果と自動採点結果との一致率が所定の閾値を超えた場合、用いた採点基準を当該設問の採点基準として確定する確定採点基準出力手段と、
を備えたことを特徴とする採点自動化支援システム。
【請求項2】
前記採点基準は、採点基準文字列と採点ロジックを含むことを特徴とする請求項1に記載の採点自動化支援システム。
【請求項3】
前記採点基準文字列は、センテンス型と完全一致型に分類され、センテンス型は同意義の代替文字列を含みうることを特徴とする請求項2に記載の採点自動化支援システム。
【請求項4】
前記自動採点手段は、答案文とマッチングが成立する採点基準文字列を抽出し、抽出した文字列を採点ロジックに適用して、当該答案文の正誤を判定することを特徴とする請求項2に記載の採点自動化支援システム。
【請求項5】
コンピュータを
採点対象とする記述式設問の全答案文からサンプルとして取り出した答案文と手動による目視採点結果を取得する答案文取得手段、
自動採点のための採点基準を取得する採点基準取得手段、
最新の採点基準に基づいて前記答案文を自動採点する自動採点手段、
前記目視採点結果と前記自動採点の結果とを対比する採点結果対比手段、
前記対比の結果が不一致である答案文が残存する場合、採点基準を更新する採点基準更新手段、
すべての答案文の目視採点結果と自動採点結果との一致率が所定の閾値を超えた場合、用いた採点基準を当該設問の採点基準として確定する確定採点基準出力手段と、
して動作させることを特徴とする採点自動化支援プログラム。
【請求項6】
コンピュータが
採点対象とする記述式設問の全答案文からサンプルとして取り出した答案文と手動による目視採点結果を取得する答案文取得ステップ、
自動採点のための採点基準を取得する採点基準取得ステップ、
最新の採点基準に基づいて前記答案文を自動採点する自動採点ステップ、
前記目視採点結果と前記自動採点の結果とを対比する採点結果対比ステップ、
前記対比の結果が不一致である答案文が残存する場合、採点基準を更新する採点基準更新ステップ、
すべての答案文の目視採点結果と自動採点結果との一致率が所定の閾値を超えた場合、用いた採点基準を当該設問の採点基準として確定する確定採点基準出力ステップを、
実行することを特徴とする採点自動化支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日本語による記述式問題の完全な採点自動化を実現するための自動採点基準を作成するシステムに関する。
【背景技術】
【0002】
記述式問題が増加傾向にあるが、その採点は人手によることが殆どである。この人手による採点には、問題がいろいろとある。
第1に、大量の採点要員を集めなければならないが、人手不足の折必要な人数を募集することが容易でないという問題である。
第2に、採点者により多少のばらつきがありうるという問題である。 例えば、正解例が「降水量が多い」に対して、答案が「雨がよく降る」であった場合、ある採点者は、言い回しが異なるが内容的には理解していると判断して正答とするが、別の採点者は、中学生になっても「降水量」という用語を知らないからと誤答にするかもしれない。所定の採点基準に則って、採点するのであれば、このようなばらつきは生じにくいと考えられる。
これらの問題を解消するために採点を自動的に行うことが試みられ、特許文献1に開示されている発明もその一例である。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の発明は、ニューラルネットワークを用いた自動採点の問題点を認識し、これを克服しようとするものである。従来のニューラルネットワークを用いた方法とは、予め採点済データを教師データとして、正解と不正解の二値分類問題として学習し、二人目の採点者として、その学習結果を活かそうとする。しかし、ある人数分の答案を人手で採点し、採点済データとして学習し、それを残りの人数分の答案に対して、学習結果を適用したとしても精度の保証は何もない。また、正解と不正解の二値分類のため、部分点を与えることができない。仮に、二値分類を多値分類に変更したとしても精度は落ちる。
この問題点を解決するために、特許文献1の発明は、採点の基準となる文字列情報(正答例)と採点対象となる文字列情報(受験者の答案文)をそれぞれ形態素解析し、形態素の対応関係を算出する。算出した対応関係に基づいて、正答例と答案文との類似性を算出し、算出した類似性に関する情報に基づき答案文の点数を算出する。つまり、正答例と答案文のそれぞれの文字列情報に含まれる形態素の対応関係で正誤を決めようとするのが、この発明のアルゴリズムである。
しかしながら、受験者の答案には正解、不正解に関係しない文や語が含まれていることが通常であり、このような場合、形態素の対応関係では絞り込めず無駄が多いというのが殆どである。
【0005】
このような問題点に鑑み、本発明者は、答案文のすべての文字列を対象にするのではなく、答案文に正答例が含まれているか、を探す方が効率的であると考えた。この正答例の検索にあたり、既存の意図情報抽出処理(特願2021-79401に開示されている)を利用して、完全自動化の実現を可能とする採点基準を作成することとした。
【課題を解決するための手段】
【0006】
前記の課題解決のために、本発明のシステムは、
採点対象とする記述式設問の全答案文からサンプルとして取り出した答案文と手動による目視採点結果を取得する答案文取得手段と、
自動採点のための採点基準を取得する採点基準取得手段と、
最新の採点基準に基づいて前記答案文を自動採点する自動採点手段と、
前記目視採点結果と前記自動採点の結果とを対比する採点結果対比手段と、
前記対比の結果が不一致である答案文が残存する場合、採点基準を更新する採点基準更新手段と、
すべての答案文の目視採点結果と自動採点結果との一致率が所定の閾値を超えた場合、用いた採点基準を当該設問の採点基準として確定する確定採点基準出力手段と、
を備えたことを特徴とする。
ここでいう答案文とは、手書き解答の画像ではなく、OCRまたは人手でデジタルに変換したデータである。
【0007】
採点基準は、採点基準文字列と採点ロジックを含むものとし、採点基準文字列は、センテンス型と完全一致型に分類され、センテンス型は同意義の代替文字列を含んでもよい。
【0008】
さらに、前記自動採点手段は、答案文とマッチングが成立する採点基準文字列を抽出し、抽出した文字列を採点ロジックに適用して、当該答案文の正誤を判定するとよい。
【発明の効果】
【0009】
全受験者の一部の答案をサンプルとして、設問毎に自動採点化に耐えうるような採点基準を作成する。そのため、サンプル以外の残りの大多数の答案を高い精度で自動採点できる。 これにより、採点に必要な人手を大幅に削減できる。
模擬試験では、過去問を繰り返し出題することが多い。模擬試験の実施毎に学生のアルバイト等を採点要員として募集するのであれば、採点のノウハウが継承されていかない。しかし、本発明では採点基準がデータベースに保存される。数年後に同じ問題を出題するとき、採点基準もほぼそのまま利用できる。模擬試験の主催者にとって、負担が軽減され、労力を新作問題の作成などに振り向けられる。
【図面の簡単な説明】
【0010】
【
図1】実施の形態にかかる処理概要を示すフロー図である。
【
図2】実施の形態にかかる採点基準を構成する採点基準文字列を説明する図である。
【
図3】実施の形態にかかる採点基準を構成する採点ロジックを説明する図である。
【
図4】実施の形態にかかる意図情報抽出処理を説明する図である。
【
図5】実施の形態にかかるシステム構成および情報処理装置の機能ブロック構成を示す図である。
【
図6】実施の形態にかかる答案文データを例示する図である。
【
図7】実施の形態にかかる自動採点結果(正答の場合)を例示する図である。
【
図8】実施の形態にかかる自動採点結果(誤答の場合)を例示する図である。
【
図9】実施の形態にかかる採点結果の対比を説明する図である。
【発明を実施するための形態】
【0011】
本発明の実施の形態のシステム(以下、「本システム」)について、図面を参照しながら、
次の順に説明する。
《 1.本システムの概要と主要な概念の説明 》
〈 1-1.本システムの概要 〉
〈 1-2.採点基準の説明 〉
〈 1-3.意図情報抽出処理の概要 〉
《 2.本システムの構成 》
《 3.本システムの動作 》
《 4.本システムの成果物の利用などについて 》
【0012】
《 1.本システムの概要と主要な概念の説明 》
〈 1-1.本システムの概要 〉
本システムの概要を
図1を参照しながら説明する。
なお、以下の説明において、全受験者の答案文を「全答案文」といい、この全答案文から採点基準作成のためにサンプルとして利用する答案文を単に「答案文」という。
全答案文からサンプルとなる答案文を抽出し、人手による目視採点を行い、答案文と目視採点結果とを対応づけてデータベースに保存する(F1)。
当初用いる採点基準を作成し、データベースに保存する。(F2)
採点基準に則って、答案文を自動採点する。(F3)
自動採点結果を目視採点結果と対比し、一致率が100%であるか判定する(F4)。
自動採点結果と目視採点結果とが不一致な答案文があれば(F4でNo)、一致するように採点基準を更新する(F5)。その後、F3に戻って、更新後の採点基準で自動採点する。一致率が100%になるまで、F3-->F4-->F5のループを繰り返す。
自動採点結果と目視採点結果とが100%一致すれば(F4でYes)、そのとき用いた採点基準を本システムの成果物として確定する。(F6)
【0013】
〈 1-2.採点基準の説明 〉
採点基準は、本システムにとって最も重要な概念である。
この採点基準は、採点基準文字列と採点ロジックとからなる。
【0014】
採点基準文字列とは、正答と判定されるためには、答案文に含んでいなければならない文字列である。 この文字列には、
図2に示すようにセンテンス型と完全一致型とがある。
もし、正答例が「気温が高く、降水量が多い」であれば、「気温」、「降水量」、「気温が高い」、そして「降水量が多い」が採点基準文字列たりうる。このうち「気温が高い」と「降水量が多い」はセンテンス型の文字列である。センテンス型の文字列は、完全一致を検索条件とするならば検索数が大幅に減少してしまう。答案文には、「高温である」とか「降水量が高い」といった表現もあるであろうから、こういった表記の揺れに対応した代替表現も採点基準文字列に含ませる。
一方、「気温」と「降水量」は1個の名詞であって完全一致型の文字列とする。「気温」、「降水量」と同一の文字列であることを検索条件とするのである。ただし、代替文字列を含めてもよい。例えば、「気温」の代替として「温度」も含め、「気温」あるいは「温度」と同一の文字列があることを検索条件とするのである。
【0015】
本システムの開始当初は、ひととおり想定される文字列が採点基準として用意されていればよい。しかし、自動採点の結果、「降水量が多い」に代えて「雨が多い」と書かれた答案文が自動採点では誤答とされ、目視採点結果(「正答」と判定)と不一致になっていたとする。その場合、「雨が多い」を追加することによって採点基準を更新する。つまり、目視採点結果(自動採点結果よりも信頼できると考えられる)に自動採点結果を一致させようとすると、採点基準の不備が見えてくるので、この不備を補うために採点基準を更新し、精緻にしていくのである。
なお、基準文字列には、正答に記載してはいけない文字列を含めてもよい。たとえば、上記の正答例に対して「気温が低い」とか「乾燥」が一例である。
【0016】
一方、採点ロジックとは、
図3に示すように、採点基準文字列の組合せによる正誤の判定ロジックのことである。この判定ロジックは設問ごとに異なる。設問によっては、答案に含めてはならない文字列(NG要素)を採点基準文字列に含めておき、このNG要素が書かれている答案を減点して半正答としたり、誤答としたりしてもよい。
【0017】
〈 1-3.意図情報抽出処理の概要 〉
各答案文の正誤判定は、第1に採点基準文字列の検索、第2に採点ロジックによる正誤判定の2段階に分かれる。
前半の採点基準文字列の検索には、既存の意図情報抽出処理を利用する。これは一種のAIであるが、機械学習によらない自然言語処理である。自然言語処理には機械学習を活用することが多いのが昨今の傾向である。しかし、深層学習などの機械学習は大量の教師データを収集して学習しなければならず、大量の人手を必要とする。本発明で対象としているのは、各設問に対する答案文という極めて限定された範囲の日本語表現であって、予め大量に学習しておくまでもない。
なお、後半の正誤判定処理は、一種の専門家システムである。作問者という専門家の判断ロジックを、情報処理装置に移転させて実現させるものだからである。
【0018】
以下、採点基準文字列を検索する意図情報抽出処理について説明する。
ここで、「意図情報」とは、相手の発する表現を受けとる側が、相手の表現の中から抽出しようと意図する情報のことである。本システムでは、受験生の答案文を受けとったソフトウェアが、答案文の正誤判定という目的のために答案文から抽出しようとする正答例のことである。たとえば、上述の例の「降水量が多い」、「気温が高い」という正答例及びこれらの代替表現が意図情報に該当する。
本システムでは、各答案文の全部または一部と、いずれかの採点基準文字列とのマッチングが成立するとき、当該答案文には、採点基準文字列すなわち正答例が含まれていると判断する。
【0019】
意図情報抽出処理のアルゴリズムを、
図4に従い説明する。
答案文は、日本語で記述されており、文(単文、重文、複文、重複文のいずれでもよい)でも、1個以上の単語でも、形容詞と名詞の組合せのいずれでもよい。
各答案文は、まず形態素解析によって形態素に区分される。形態素とは、ある言語について意味を持つ最小の単位をいい、形態素の区切り、形態素単位の品詞、原形、活用形などの形態素情報は、構文解析にかけられる。構文解析とは、形態素情報を参照して主語、述語の関係を決めたり、文節間の係り受け関係、照応関係などの解析を行うものである。答案文は、構文解析の結果に基づいて、1個以上の単文に分解する。ここで、単文化するのは、人間の発する言葉(本発明では、答案文)は、構造が複雑であったり、主語と述語が離れていたりすることも多く、本人以外は意図を取り違えてしまいがちなので、これを防止するために、複雑な文であっても、わかりやすい単文に分割するのである。
なお、形態素解析、構文解析については、既存の技術を用いることができるので、詳しい説明は省略する。
【0020】
一方、採点基準文字列が採点基準を格納しているデータベースから取り出され、この採点基準中の各文字列が構文解析器による形態素解析および構文解析の対象となり、単文に分解される。形態素解析、構文解析及び単文化の処理は答案文の場合と同様である。
各採点基準文字列は、構文解析の結果に基づいて3つのタイプに分類される。すなわち、(1)特定の述語を、複数の補語や修飾語と組み合わせた『叙述文タイプ』、(2)一つの単語からなる『一単語フォーカスタイプ』、(3)特定の形容詞と名詞の組合せからなる『形容詞フォーカスタイプ』である。分類されたタイプに応じて判定モデルを自動生成する。
判定モデルとは、判定クラスと判定式とを総称する概念である。判定クラスはオブジェクト指向言語にいうクラスに相当し、判定式はインスタンスに相当する。
単文化後の答案文を各判定モデルにあてはめ、答案文とのマッチング処理を行う。マッチング処理の結果、答案文に含まれている0個以上の採点基準文字列が取り出される。これに採点ロジックを適用し答案文の正誤を判定する。
次に、マッチングの成否について、上記の3つのタイプ別に説明する。
【0021】
{ 『叙述文タイプ』のマッチング }
採点基準文字列(ただし、単文化後)が叙述文タイプである場合、その採点基準文字列の判定式を構成する全要素が答案文に含まれ、且つ各要素の『カテゴリー』と『構成』も答案文中の対応する単語の解析情報と一致する場合に、マッチングが成立すると判断される。
単語の解析情報には、構文解析の結果で得られた情報から類推した打消(例:「降らない」、「多くない」など)や依頼(例:「(傘を)用意してください」)などの情報も含まれる。本発明は、単なるキーワードマッチングにとどまらず、解析情報も加味したマッチングを行うので、意図情報が高い精度で抽出できるのである。
【0022】
『叙述文タイプ』の採点基準文字列では、次の3つのいずれかの『カテゴリー』に属する語が、判定式の構成要素となる。
・述語
・補語( 〔注〕主語は補語の一種とみなされる )
・修飾語( 〔注〕連用修飾と連体修飾とがある )
例えば、「1年中多量の雨が降る」という採点基準文字列は、次のように分解される。
降る 《述語》
<------- 1年中 《述語を修飾》
<--(が)-- 雨 《補語》
<--(の)-- 多量 《補語を修飾》
この例文では、上記の3カテゴリー、すなわち、述語、補語、修飾語のいずれかに属する「多量」、「雨」、「1年中」、「降る」が判定式の構成要素である。
【0023】
マッチング成立とは、基準文字列の各構成要素の『カテゴリー』とその『語』と『構成』が、単文化後の答案文の要素と全てマッチする場合をいう。「多量」というキーワードを例にとると、『カテゴリー』=(修飾語)、『語』=(多量)、『構成』=(補語「雨」を修飾する関係)である。
ここでいう『 構成』とは、補語と述語のリンクする関係、あるいは修飾語と被修飾語のリンクする関係をいう。もし、答案文が「1年中雨か多量の雪が降る」であれば、「多量」は補語「雪」を修飾する関係にあるので、補語「雨」を修飾する基準文字列の「多量」とマッチするとは言えない。よって、マッチング不成立で答案文は正答とは判断されない。また、答案文が『雨が降ります』であれば、マッチングは不成立である。答案文には基準文字列側の要素である「一年中」と「多量」が欠けているからである。
【0024】
なお、補語、修飾語、述語のいずれの『カテゴリー』にも属さない文体を表す語尾(例:「・・です」「・・である」「・・だ」)、助詞(例:「多量の雨が」の「の」と「が」)、接続詞は、判定式の構成要素とならない。
したがって、 答案文が「多量の雨が一年中降ります」とか「多量の雨が一年中降るのである」であるならば、上記の採点基準文字列の要素をすべて満たしているのでマッチングは成立する。
【0025】
{ 『一単語フォーカスタイプ』のマッチング }
『一単語フォーカスタイプ』では、名詞、形容詞、副詞をそれぞれ1語で採点基準文字列として登録している。これは、同一の単語が答案文のいずれかの場所に含まれているときに限り、マッチングが成立する。
【0026】
{ 『形容詞フォーカスタイプ』のマッチング }
『形容詞フォーカスタイプ』の採点基準文字列は、特定の形容詞とこれに修飾される名詞の組合せがマッチするが、形容詞のタイプによって、マッチングのパターンに違いがある。
たとえば、「高い気温」が採点基準文字列として登録されているとする。答案文が叙述文に展開されたパターンである「気温が高い」、助詞が省略された叙述文のパターンである「気温高い」、名詞化されたパターンである「高めの気温」のいずれもマッチングに成功する。
一方、「高くない気温」は、「高い」の打消「高くない」が用いられているのでマッチしない。
このようにマッチング処理においてはキーワードとともに打消などの情報も照合されるが、この打消の情報は構文解析結果でわかるのである。
この『形容詞フォーカスタイプ』は『叙述文タイプ』とともに、採点基準にいう「センテンス型」に該当し、『一単語フォーカスタイプ』の多くは「完全一致型」に該当する。
【0027】
以上、自動採点処理の要となる意図情報抽出処理の概要を説明した。ここで
図4について付言する。
図4では、答案文と採点基準文字列が同時進行的に処理されるかのように示したが、これは説明の便宜のためである。本システムにおける処理は、後述する本システムの構成および動作の説明を参照されたい。
【0028】
《 2.本システムの構成 》
以下、
図5に従い、本システムの構成を説明する。
システム管理コンピュータ(以下、「サーバ」)1は、通信ネットワークNを介して、利用者が使用する利用者端末2と接続する。ここで「利用者」とは、採点基準のデータを作成する者であり、主に設問の作成者である。設問の作成者であれば、その設問の主旨を誰よりも理解しているであろうし、受験者の答案文がさまざまであっても、正誤を的確に判断できるであろう。このような設問の作成者が採点者としても自動採点用の基準を作成する者としても適任なのである。
【0029】
利用者端末2は、本システムの利用者が採点基準を新規に作成したり更新したりサーバ1にアップロードしたり、採点結果をサーバ1からダウンロードしたりするための情報処理装置である。利用者端末2は、キーボードやマウスなどの入力部21と、プリンタや画面などの出力部22を備える。 入力部21を介して、利用者は採点基準を新規作成したり、更新したりする。出力部22を介して、答案文を閲覧したり、採点基準に基づいて自動採点された結果を閲覧したりする。
他に、サーバ1などとの通信を可能とする通信インターフェース部(図示せず)、処理過程の各種データやプログラムを記憶する記憶部(図示せず)なども備える。
【0030】
サーバ1は、記憶部3、処理部4のほか、利用者端末2やその他の情報処理装置と接続を可能とするための通信インターフェース部(図示せず)、サーバ1の操作者などが使用する入出力部(図示せず)なども備える。
【0031】
記憶部3は、受験者の答案文を格納した答案文データベース(以下、「答案文DB」)31と採点基準を格納した採点基準データベース(以下、「採点基準DB])32を備えるとともに、各種プログラムや処理途中のデータなどを記憶する。
【0032】
サーバ1の処理部4には、
図5に示すように、答案文取得部401、形態素解析部402,構文解析部403,答案文単文化部404、採点基準取得部405、判定モデル生成部406、自動採点部407、採点結果対比部408、採点基準更新部409、確定採点基準出力部410が含まれる。これらの各部は、記憶部3に格納されたプログラムをCPUが実行することによって実現される。なお、処理部4のブロック構成は説明の便宜のためのものであり、これに限るものではない。
【0033】
答案文取得部401は、答案文DB31に記憶されている答案文と手動による目視採点結果を取得する。 答案文DB31は、
図6に例示するように、受験者の答案文と、目視採点結果とを自動生成されるIDと対応づけて記憶し、記憶されたデータは専ら参照されるだけである
なお、全答案文から答案文を抽出し答案文DB31に登録する処理は、サーバ1で実行してもサーバ1とは別のコンピュータで実行してもかまわない。また、答案文DB31はサーバ1とは別のデータサーバなどにあってもよい。
【0034】
形態素解析部402は、入力された答案文および採点基準文字列を形態素に区分する。
構文解析部403は、形態素情報を参照して主語、述語の関係を決めたり、文節間の係り受け関係、照応関係などの解析を行ったりする。
答案文単文化部404は、元の答案文が複文、重文、重複文の場合、構文解析の結果に基づいて、1個以上の単文に分解する。
【0035】
採点基準取得部405は、自動採点のための採点基準を取得する。利用者端末2の入力部21から入力された採点基準のデータを通信ネットワークNを介して取得するのである。
採点基準DB32には、初回の採点基準、修正途中の採点基準、完成された採点基準が格納される。
【0036】
判定モデル生成部406は、 採点基準文字列を構文解析し、その文法的特徴によって『叙述文タイプ』、『一単語フォーカスタイプ』、『形容詞フォーカスタイプ』のいずれかに分類し、タイプに対応した判定クラスから判定式を生成する。採点基準文字列の形態素解析、構文解析は答案文の場合と同様である。
【0037】
自動採点部407は、答案文DB31から取り出した答案文を、採点基準DB32から取り出した最新の採点基準に基づいて自動採点する。この自動採点の処理は、前半のマッチング処理と、後半の自動採点結果出力処理に分けることができる。前半の処理では、上述した意図情報抽出処理を用いて答案文と採点基準文字列とのマッチングの成否を判断し、後半の処理では、マッチングの結果に採点ロジックを適用して自動採点を行い、答案文が正答、半正答、誤答のいずれであるかを出力する。
【0038】
採点結果対比部408は、目視採点結果と自動採点結果とを答案文ごとに対比する。対比された結果は、一致か不一致のいずれかである。一致とは、両者の結果がいずれも正答、いずれも半正答、いずれも誤答である3パターンをいい、それ以外のパターンは不一致として扱う。
【0039】
採点基準更新部409は、採点結果対比部408による対比の結果、不一致である答案文が残存する場合に採点基準を更新する。採点基準の精度は、採点を完全自動化するに足りるものでなくてはならない。したがって、すべての答案文について目視採点結果と自動採点結果とが一致するようでなければ、完全自動化の実現に疑問符がつく。そこで、利用者端末2から採点基準の更新がある都度、これを採点基準DB32に最新の採点基準として記憶させるのである。なお、採点基準を更新した利用者を特定する情報(頭文字、IDなど)も併せて記憶させてもよい。
ところで、更新の処理の殆どは採点基準文字列の代替文字列の追加である。例えば、「降水量」を「こう水量」と書いてあるために誤答とされて、正答とした目視採点結果と不一致であったとする。自動採点においても正答として扱うためには、「こう水量」を完全一致型の採点基準文字列として追加すればよい。また、サンプルとなった答案文のいずれにも「こうすい量」という記載は見当たらなかった場合も、「降水量」や「こう水量」と類似しまたは同義の文字列であると考え、「こうすい量」を採点基準文字列に追加してもよい。このように、目視採点結果を参考にして、意味的に同じ表現を代替文字列として設定するのである。ここで、どの文字列を削除したり代替文字列として追加したりするかは、利用者が蓄積してきたノウハウによる。専門家である利用者が採点基準を作成する本システムは、一種の専門家システムなのである。また、
図3の(ロジック3)では、要素2つが出現していれば正答と判断している。しかし、要素A,B,Cの3つが揃った「降水量が少なくて乾燥しているので砂漠がある」を正答とし、他は半正答あるいは誤答としてもよい。要は、一貫した採点基準で全受験者の答案文を採点することが望ましいのである。
【0040】
確定採点基準出力部410は、すべての答案文の目視採点結果と自動採点結果との一致率が所定の閾値を超えた場合、このときの自動採点に用いた採点基準を当該設問の採点基準として確定する。閾値は100%とすることが適切である。
この採点基準は、データサーバに格納したり、市販に供されたりする。
【0041】
《 3.本システムの動作 》
本システムは、設問ごとに実行される。設問ごとに採点基準が異なるからである。
採点基準を作成するために、所定個数のサンプル答案を設問ごとに抽出する。
例えば、全答案文の5%をサンプルとして採点基準を作成したならば、残りの95%の答案文は人手を介在させずにコンピュータで採点する。 この完全な自動化の実現は、サンプルとして抽出した答案文を精度100%で採点できたことが前提である。そのためには、採点基準が完璧でなければならないが、このような採点基準の作成を可能とするのが本システムなのである。
サンプルは、母集団の得点分布を反映するように抽出されることが望ましい。また、全答案文からの抽出割合も適宜決めればよい。
【0042】
オンラインによる試験や、会場試験でもタブレット端末を用いた受験もありうるが、まだまだ答案用紙に筆記具で書き込む形式の試験形態が多い。そのため、受験生ごとに筆跡の異なる答案文をデジタルデータ化しなくてはならない。デジタルデータ化のためには、OCRで読み取ったり、スキャナーで読み取ってPDF化したりする。また、既存の文字認識ソフトウエアを利用してもよい。 手書きの答案文の認識は、本発明にとって本質的でないので、詳しい説明は省略する。
【0043】
全答案文からサンプルとして抽出した答案文を、人手によって採点し、答案文と目視採点結果とを対応づけて答案文DB31に保存する。利用者は、利用者端末2に適宜ダウンロードし、画面22に表示させる(
図6参照)。
【0044】
利用者端末から取得した採点基準を、採点基準DB32に保存する。採点基準文字列を例示する
図2において、「必須」(4a)とあるのは、答案文に必ず含んでいなくてはならない文言であることを示す。この例の正答例「気温が高く、降水量が多い」(4b)は重文なので、2つの単文「気温が高い」(4c1)と「降水量が多い」(4c2)に分ける。「気温が一年中高い」(4d1)も「降水量が高い」(4d2)も代替表現とみなして、正答文字列とする。どのような文字列を必須とするか、どのような表現を正答の代替表現として許容するかは採点者の培ってきたノウハウに依存する。
【0045】
採点基準に則って、答案文を自動採点する。自動採点は、サーバ1に実装した意図情報抽出プログラムをCPUが実行することによって処理される(
図5の機能ブロック例では、主に自動採点部407が実行)。
図7は、答案文「気温が高くて、降水量もとても多いからです」の自動採点結果を示す。これを2つの単文「気温が高い」と「降水量がとても多い」に分ける。この答案文は、採点基準で必須文字列とされる「気温」と「降水量」を2つとも含んでいる。さらに正答例1の「気温が高い」と「降水量が多い」のいずれも含んでいる。したがって、自動採点結果は「正答」である。答案文には「とても」という正答例にない単語が含まれているが、正答例の「降水量」と「多い」が含まれているのでマッチング成立、すなわち「正答」と自動採点される。
図8は、自動採点結果が「誤答」の例を示す。
答案文「湿度が高く、つゆみたいなかんじです」には、「気温」と「降水量」の必須単語が含まれていない。しかも、「湿度が高い」、「つゆみたい」と2つの単文に分けられるが、いずれも正答例を構成する「気温が高い」と「降水量が多い」とはマッチング不成立である。したがって、「誤答」と自動採点される。
【0046】
自動採点の結果を目視採点結果と対比する。
図9(1)は、対比結果を示す図である。矩形内の答案文「雨の降る量が多い」は目視採点では半正答であった。「気温が高い」を記載していないので減点されたのである。しかし、自動採点では、「降水量」が含まれていないので誤答となっている。
しかし、「雨の降る量が多い」は「降水量が多い」と意味は同じであって、目視採点結果の方が妥当である。そこで、採点基準文字列の正答例文に「雨の降る量が多い」を追加する。完全一致型の文字列「降水量」の代替文字列として「雨の降る量」を追加してもよい。
【0047】
このように、 不一致な答案文があれば、目視採点結果に一致させるように採点基準を更新するのである。
採点基準を更新したならば、再び自動採点し、目視採点結果と対比する。更新後の対比結果を表示する画面では、
図9(2)に示すように履歴を表示してもよい。
図9(2)において、答案文「雨の降る量が多い」は、自動採点により半正答となった。これにより、目視採点結果と対比すると不一致から一致に変化した。これを「×-->〇」と表現している。
採点基準の更新の結果、100%一致すれば、そのとき用いた採点基準を本システムの成果物とする。
目視採点結果と自動採点結果とが100%一致するまで、採点基準の更新-->自動採点-->採点結果の対比-->採点基準の更新のループを繰り返すのである。
【0048】
《 4.本システムの成果物の利用などについて 》
一般的な利用形態は、サンプル以外の残りの答案文を電子化処理可能な形態で取り出し、保存された採点基準で自動採点することである。ここで、目視チェックは省略する。 目視チェックを不要とするまで、採点基準を精緻に作成済だからである。そもそも目視チェックが必要となるようでは、採点に要する人手の削減という本発明の最大の目的が実現できない。
【0049】
模擬試験は、自宅で自分の情報処理装置(パソコン、タブレット端末、スマートフォンなど)からオンラインで受験することも可能である。本システムで作成した採点基準が用意されているならば、試験の終了後採点結果を迅速に返すことができる。自分の成績をすぐに知りたいという受験生の要望に応えることができる。
【0050】
他にも、確定した採点基準は、後日の模擬試験用に、問題文とともに保存してもよい。模擬試験問題は、良問ほど使いまわされることが多い。そこで、設問の問題文と採点基準とをセットで保存しておくのである。ただし、設問によっては時代とともに正答が若干変更することもあるので、その場合は、既存の採点基準を適宜更新すればよい。
【0051】
上記の実施の形態は、あくまで一例に過ぎない。要は、特許請求の範囲に記載した発明の趣旨を逸脱しない範囲で、いろいろな態様での実施が可能なのである。
また、中学生や高校生が対象の模擬試験だけでなく、記述式で解答させる各種資格試験のための模擬試験等各種の記述式試験で本発明を利用できる。
【産業上の利用可能性】
【0052】
本発明は、今後の試験形態として増加が予想される記述式問題の自動採点化を可能とするシステムとして、各種受験産業に活用されることが期待できる。
【符号の説明】
【0053】
1:サーバ
3:記憶部
31:答案文DB
32:採点基準DB
4:処理部
401:答案文取得部
402:形態素解析部
403:構文解析部
404:答案文単文化部
405:採点基準取得部
406:判定モデル生成部
407:自動採点部
408:採点結果対比部
409:採点基準更新部
410:確定採点基準出力部
2:利用者端末
21:入力部
22:出力部
N:通信ネットワーク