IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人 筑波大学の特許一覧 ▶ 一般社団法人教育のための科学研究所の特許一覧

特許7290273項目反応理論に基づくテストの項目チェック装置
<>
  • 特許-項目反応理論に基づくテストの項目チェック装置 図1
  • 特許-項目反応理論に基づくテストの項目チェック装置 図2
  • 特許-項目反応理論に基づくテストの項目チェック装置 図3
  • 特許-項目反応理論に基づくテストの項目チェック装置 図4
  • 特許-項目反応理論に基づくテストの項目チェック装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-05
(45)【発行日】2023-06-13
(54)【発明の名称】項目反応理論に基づくテストの項目チェック装置
(51)【国際特許分類】
   G09B 19/00 20060101AFI20230606BHJP
   G09B 7/04 20060101ALI20230606BHJP
   G06Q 50/20 20120101ALI20230606BHJP
【FI】
G09B19/00 G
G09B7/04
G06Q50/20
【請求項の数】 3
(21)【出願番号】P 2019112145
(22)【出願日】2019-06-17
(65)【公開番号】P2020204704
(43)【公開日】2020-12-24
【審査請求日】2022-02-09
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(73)【特許権者】
【識別番号】517441435
【氏名又は名称】一般社団法人教育のための科学研究所
(74)【代理人】
【識別番号】110001737
【氏名又は名称】弁理士法人スズエ国際特許事務所
(72)【発明者】
【氏名】尾▲碕▼ 幸謙
(72)【発明者】
【氏名】登藤 直弥
【審査官】宮本 昭彦
(56)【参考文献】
【文献】特開2018-205354(JP,A)
【文献】特開2016-126029(JP,A)
【文献】特開2014-228555(JP,A)
【文献】国際公開第2010/119571(WO,A1)
【文献】特開2018-169561(JP,A)
【文献】斎藤 隆文,択一式試験問題の分析のための解答分布可視化,情報処理学会研究報告,日本,社団法人情報処理学会,2006年02月20日,Vol.2006,No.18,第37~42頁,ISSN0919-6072
(58)【調査した分野】(Int.Cl.,DB名)
G09B 1/00 - 9/56
G09B 17/00 - 19/26
(57)【特許請求の範囲】
【請求項1】
コンピュータが、項目反応理論に基づくテストをするために項目が蓄積された項目プールに追加する新規の項目に対して複数の受検者が解答した受検データにおいて、項目反応理論に基づいて、前記複数の受検者の能力値及び前記新規の項目の項目パラメータを推定するパラメータ推定手段と、
前記コンピュータが、前記項目プールの母数と前記受検データの間で、項目パラメータを等化した項目母数を演算する項目母数演算手段と、
前記コンピュータが、前記項目母数演算手段により演算された前記項目母数に基づいて、前記複数の受検者の能力値を再推定する能力値再推定手段と、
前記コンピュータが、前記受検データ及び前記能力値再推定手段により再推定された前記能力値に基づいて、前記新規の項目の項目特性図を示す項目特性データを作成する項目特性データ作成手段と、
前記コンピュータが、前記項目特性データ作成手段により作成された前記項目特性データにおいて、前記複数の受検者の能力値が高くなると、正答率が上がる相関関係にない場合、前記新規の項目を不適切と判定する第1判定手段と、
前記コンピュータが、前記項目特性データ作成手段により作成された前記項目特性データにおいて、前記複数の受検者のうち最も高い能力値の群の受検者が最も選んだ選択肢が正答でない場合、前記新規の項目を不適切と判定する第2判定手段と
前記第1判定手段及び前記第2判定手段のいずれも不適切判定されていない前記新規の項目を前記項目プールに蓄積する蓄積手段と
備えることを特徴とする項目反応理論に基づくテストの項目チェック装置。
【請求項2】
コンピュータが、項目反応理論に基づくテストをするために項目が蓄積された項目プールに追加する新規の項目に対して複数の受検者が解答した受検データにおいて、項目反応理論に基づいて、前記複数の受検者の能力値及び前記新規の項目の項目パラメータを推定し、
前記コンピュータが、前記項目プールの母数と前記受検データの間で、項目パラメータを等化した項目母数を演算し、
前記コンピュータが、演算した前記項目母数に基づいて、前記複数の受検者の能力値を再推定し、
前記コンピュータが、前記受検データ及び再推定した前記能力値に基づいて、前記新規の項目の項目特性図を示す項目特性データを作成し、
前記コンピュータが、作成した前記項目特性データにおいて、前記複数の受検者の能力値が高くなると、正答率が上がる相関関係にない場合、前記新規の項目を不適切と判定する第1判定を行い
前記コンピュータが、作成した前記項目特性データにおいて、前記複数の受検者のうち最も高い能力値の群の受検者が最も選んだ選択肢が正答でない場合、前記新規の項目を不適切と判定する第2判定を行い、
前記第1判定及び前記第2判定のいずれも不適切と判定されていない前記新規の項目を前記項目プールに蓄積すること
を含むことを特徴とする項目反応理論に基づくテストの項目チェック方法。
【請求項3】
コンピュータが、項目反応理論に基づくテストをするために項目が蓄積された項目プールに追加する新規の項目に対して複数の受検者が解答した受検データにおいて、項目反応理論に基づいて、前記複数の受検者の能力値及び前記新規の項目の項目パラメータを推定し、
前記コンピュータが、前記項目プールの母数と前記受検データの間で、項目パラメータを等化した項目母数を演算し、
前記コンピュータが、演算した前記項目母数に基づいて、前記複数の受検者の能力値を再推定し、
前記コンピュータが、前記受検データ及び再推定した前記能力値に基づいて、前記新規の項目の項目特性図を示す項目特性データを作成し、
前記コンピュータが、作成した前記項目特性データにおいて、前記複数の受検者の能力値が高くなると、正答率が上がる相関関係にない場合、前記新規の項目を不適切と判定する第1判定を行い
前記コンピュータが、作成した前記項目特性データにおいて、前記複数の受検者のうち最も高い能力値の群の受検者が最も選んだ選択肢が正答でない場合、前記新規の項目を不適切と判定する第2判定を行い、
前記第1判定及び前記第2判定のいずれも不適切と判定されていない前記新規の項目を前記項目プールに蓄積すること
を含むように機能させることを特徴とする項目反応理論に基づくテストの項目チェックプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、項目反応理論に基づくテストに用いるための項目をチェックする適応型テストの項目チェック装置に関する。
【背景技術】
【0002】
一般に、項目反応理論(IRT、item response theory)に基づくテストの一つとして適応型テスト(CAT、computerized adaptive testing)が知られている。CATは、項目パラメータ(識別力又は困難度等)が推定済みの項目が蓄積された項目プールから、受検者の解答に応じて選択された問題が出題されることにより行われる。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2004-46255号公報
【文献】特開2005-215023号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、項目プールに蓄積された項目は、受検者に何度か出題されると、項目内容が漏えいする可能性があるため、随時項目を入れ替えなければならない。このとき、項目プールに新たに追加される項目は、CAT等の項目反応理論に基づくテストに用いる項目として適切でなければ、テストの信頼性が低下する。しかし、項目をチェックする明確な基準は知られていないため、項目をチェックするのに労力を要する。
本発明の実施形態の目的は、項目反応理論に基づくテストに用いるための項目を適切にチェックする項目反応理論に基づくテストの項目チェック装置を提供することにある。
【課題を解決するための手段】
【0005】
本発明の観点に従った項目反応理論に基づくテストの項目チェック装置は、コンピュータが、項目反応理論に基づくテストをするために項目が蓄積された項目プールに追加する新規の項目に対して複数の受検者が解答した受検データにおいて、項目反応理論に基づいて、前記複数の受検者の能力値及び前記新規の項目の項目パラメータを推定するパラメータ推定手段と、前記コンピュータが、前記項目プールの母数と前記受検データの間で、項目パラメータを等化した項目母数を演算する項目母数演算手段と、前記コンピュータが、前記項目母数演算手段により演算された前記項目母数に基づいて、前記複数の受検者の能力値を再推定する能力値再推定手段と、前記コンピュータが、前記受検データ及び前記能力値再推定手段により再推定された前記能力値に基づいて、前記新規の項目の項目特性図を示す項目特性データを作成する項目特性データ作成手段と、前記コンピュータが、前記項目特性データ作成手段により作成された前記項目特性データにおいて、前記複数の受検者の能力値が高くなると、正答率が上がる相関関係にない場合、前記新規の項目を不適切と判定する第1判定手段と、前記コンピュータが、前記項目特性データ作成手段により作成された前記項目特性データにおいて、前記複数の受検者のうち最も高い能力値の群の受検者が最も選んだ選択肢が正答でない場合、前記新規の項目を不適切と判定する第2判定手段と、前記第1判定手段及び前記第2判定手段のいずれも不適切と判定されていない前記新規の項目を前記項目プールに蓄積する蓄積手段とを備える。
【発明の効果】
【0006】
本発明の実施形態によれば、項目反応理論に基づくテストに用いるための項目を適切にチェックする項目反応理論に基づくテストの項目チェック装置を提供することができる。
【図面の簡単な説明】
【0007】
図1】本発明の実施形態に係る項目チェック方法を実行する手順を示すフロー図。
図2】本実施形態に係る項目チェック装置の構成を示す構成図。
図3】本実施形態に係る項目が適切な場合の項目特性図。
図4】本実施形態に係る項目が不適切な場合の項目特性図。
図5】本発明の実施形態に係る項目プールPLの更新方法を実行する手順を示すフロー図。
【発明を実施するための形態】
【0008】
(実施形態)
図1は、本発明の実施形態に係る項目チェック方法を実行する手順を示すフロー図である。図2は、本発明の実施形態に係る項目チェック装置1の構成を示す構成図である。
以降では、項目反応理論に基づくテストとして、主に、適応型テストを例にして説明するが、項目反応理論に基づくテストであれば、どのようなテストに適用してもよい。
適応型テストは、受検者の解答に応じて、項目プールPLに蓄積された複数の項目(問題)から選択した項目を出題し、項目の出題が繰り返されることで、受検者の能力値θを決定するテストである。本実施形態が適用される項目は、問題文の問いに対して、複数の選択肢(例えば、4つの選択肢)の中から選んで解答するタイプの問題である。適応型テストは、正誤データにより、受検者の能力値をベイズ推定により求める。ベイズ推定の事前分布には、標準正規分布等が使用される。
例えば、適応型テストは、能力推定値の精度が高い(標準誤差が十分に小さい)と判断される終了条件を満たせば終了する。例えば、終了条件を満たすか否かは、予め設定された基準値との大小の比較により決定される。なお、終了条件は、受検者の能力値θが収束して確定されるまででもよいし、予め制限時間が決められていてもよいし、出題する問題数が予め決められていてもよい。
【0009】
項目チェック装置1は、入力部2、出力部3、記憶部4、及び、演算処理部5を備える。項目チェック装置1は、主にコンピュータで構成される。項目チェック装置1は、適応型テストを行うためのサーバでもよい。なお、項目チェック装置1は、ここで説明する構成に限らず、どのように構成されてもよい。例えば、コンピュータは、1つに限らず、ネットワークで構成されてもよい。
【0010】
入力部2は、項目チェック装置1に各種データを入力し、項目チェック装置1を操作するための部分である。例えば、入力部2は、キーボード、マウス、操作入力可能なディスプレイ、又は、各種メディアの読取部等である。入力部2は、いくつの機器で構成されてもよいし、どのように構成されてもよい。
【0011】
出力部3は、項目チェック装置1から各種データ又は各種演算結果などを出力するための部分である。出力部3は、ディスプレイ、プリンタ、又は、各種メディアの書込部等である。出力部3は、いくつの機器で構成されてもよいし、どのように構成されてもよい。
【0012】
記憶部4は、各種データ又は各種プログラム等を記憶するための部分である。例えば、記憶部4は、各種メモリ、ハードディスク、又は、各種メディア等である。記憶部4は、いくつの機器で構成されてもよいし、どのように構成されてもよい。また、記憶部4は、一時的に記憶するタイプでもよいし、長期的に記憶するタイプでもよいし、内蔵タイプでもよいし、外付けタイプでもよいし、ネットワークを介して接続された外部の装置でもよい。
【0013】
記憶部4は、項目プールPL、項目をチェックするための項目チェックプログラムPR1、及び、項目プールPLを更新するための項目プール更新プログラムPR2を記憶している。なお、項目プールPLは、データベース化されていてもよい。また、2つのプログラムPR1,PR2は、1つ以上のいくつのプログラムで構成されてもよい。
【0014】
演算処理部5は、項目チェック装置1の演算処理を行う。例えば、演算処理部5は、各種演算処理チップである。演算処理部5は、いくつのチップ等で構成されてもよいし、どのように構成されてもよい。
【0015】
項目チェック方法は、項目反応理論(IRT)に基づくテスト(例えば、適応型テスト)に用いられる項目が、能力測定に適切か否かをチェックするための方法である。項目チェック方法は、項目チェックプログラムPR1が項目チェック装置1に実装されることにより実現される機能により実行される。
【0016】
項目チェック方法の対象となる項目は、チェックされる前に、複数の受検者(即ち、仮想の受検者)に出題され、各受検者が解答した受検データDTが収集されている。受検データDTを収集するためのテストは、項目反応理論に基づくテストとして実施されていなくてもよいし、コンピュータを用いずに、紙形式で行われてもよい。また、各受検者の能力値θは、この受検前に、IRTに基づいて能力値θが決定(推定)されていてもよいし、受検後に、受検データDTに基づいて決定(推定)されてもよい。収集された受検データDTに基づいて、項目がチェックされる。受検データDTは、入力部2により項目チェック装置1に入力されるが、チェックが行われる前に、記憶部4に予め記憶されていてもよいし、チェックが行われる直前に、項目チェック装置1に入力されてもよい。
【0017】
演算処理部5は、項目チェックプログラムPR1による項目チェック方法に従って、各項目をチェックする。次に、各項目の適否のチェック方法について説明する。チェック対象となる項目は、どのような順番で選択されてもよい。また、項目の適否を判定するステップは、以下で説明する順番に限らず、任意に順番を入れ替えてもよい。
【0018】
項目のデータ数(受検者数)が所定値(例えば、400)以上であれば、演算処理部5は、項目特性図を作成する(ステップS101のYes、ステップS102)。データ数が所定値未満の場合、項目特性図により項目を適切と判断するためのデータ数としては足りない。このため、項目特性図を作成せずに、項目を不適切と判定する(ステップS101のNo、ステップS109)。このとき、項目の適否の判定が不能としてもよい。例えば、所定値は、100以上500以下である。なお、データ数に関係なく、常に項目特性図を作成するようにしてもよい。
【0019】
項目特性図は、次のように作成される。受検者を能力値θの順に、複数の群に分ける。例えば、受検者は、上位から順に、0%~5%(能力値θの最高群)、5%~25%、25%~50%、50~75%、75%~95%、及び、95%~100%の6つの群に分ける。ここで、群の境界に位置する受検者(例えば、上位25%番目の受検者)は、上位の群と下位の群のいずれの群に含まれるようにしてもよい。全ての受検者は、いずれか1つの群に属するようにする。
【0020】
各群の受検者の能力値θを横軸とし、選択肢毎に各群の受検者が選択した割合(解答率)を縦軸とする。これにより、図3に示すような項目特性図が作成される。図3では、太線で描かれた「2」の選択肢のグラフが正答の選択肢であり、点線で描かれたグラフが正答以外の解答である。具体的には、「1」、「3」及び「4」の選択肢のグラフは、誤答の選択肢であり、「s」のグラフは、問題を解答せずに、次の問題に進んだ場合(即ち、問題をスキップした場合)を示している。
【0021】
なお、以降において、項目特性図を用いて各種演算処理の説明をする場合について、項目チェック装置1は、項目特性図を示す項目特性データを作成して、同等の演算処理をするのであれば、項目特性図を表示又は印字等ができなくてもよい。
【0022】
演算処理部5は、項目特性図を作成した後に、項目特性図に基づいて、能力値θが高くなると、正答率が上がるか否かを判定する(ステップS103)。能力値θが高くなると、正答率が上がるような相関関係の場合は、次のステップS104に進み、そうでない場合は、その項目は、不適切と判定される(ステップS103のNo、ステップS109)。例えば、この相関関係の具体的な判断方法は、能力値θの群が高いほど、正答率が高くなる関係にあれば、この相関関係を満たしていると判断する。
【0023】
ステップS103により項目が不適切と判定されていない場合、演算処理部5は、項目特性図に基づいて、最高群の能力値θが最も選んだ選択肢が正答か否かを判定する(ステップS104)。最高群の能力値θが最も選んだ選択肢が正答である場合は、次のステップS105に進み、そうでない場合は、その項目は、不適切と判定される(ステップS104のNo、ステップS109)。
【0024】
ステップS104により項目が不適切と判定されていない場合、演算処理部5は、正答率が所定値(例えば、0.95)未満か否かを判定する(ステップS105)。正答率が所定値以上の項目は、問題が簡単過ぎるとして、不適切と判定される。正答率が所定値未満の場合は、次のステップS106に進み、そうでない場合は、その項目は、不適切と判定される(ステップS105のNo、ステップS109)。
【0025】
ステップS105により項目が不適切と判定されていない場合、演算処理部5は、最高群の能力値θの正答率が所定値(例えば、0.5)以上か否かを判定する(ステップS106)。最高群の能力値θの正答率が所定値未満の項目は、問題が難し過ぎるとして、不適切と判定される。最高群の能力値θの正答率が所定値以上の場合は、次のステップS107に進み、そうでない場合は、その項目は、不適切と判定される(ステップS106のNo、ステップS109)。なお、ステップS105及びステップS106で行われる項目の適否の判定は省略してもよい。
【0026】
ステップS106により項目が不適切と判定されていない場合、演算処理部5は、データ数が所定値(例えば、1000)以上か否かを判定する(ステップS107)。データ数が所定値未満の場合、項目パラメータを推定するためのデータ数としては不足しているとして、不適切と判定される。データ数が所定値以上の場合は、その項目は適切と判定され(ステップS107のYes、ステップS108)、そうでない場合は、その項目は、不適切と判定される(ステップS107のNo、ステップS109)。適切と判定された項目は、項目パラメータが推定される。例えば、項目パラメータは、aパラメータ(識別力)とbパラメータ(困難度)である。
【0027】
所定値は、条件に応じて変化させてもよい。例えば、推定する項目パラメータが困難度のみであれば、所定値を300とし、推定する項目パラメータが識別力と困難度であれば、所定値を400としてもよい。なお、項目パラメータは、識別力及び困難度に、当て推量等を加えて、3つ以上にしてもよいし、少なくとも困難度が含まれていればどのような組合せにしてもよいし、困難度のみでもよい。
【0028】
なお、ステップS107によるデータ数の判定は、ステップS101によるデータ数の判定と合せて判定してもよい。また、ステップS107の判定条件を満たさなくても、不適切と判定しなくてもよい。例えば、データ数が判定条件を満たせば、適切とするような条件付きの適切と判定してもよい。
【0029】
図3は、項目が適切な場合の項目特性図を示している。一方、図4は、図3と同じ項目で、ステップS101の判定条件を満たさないような少ないデータ数により作成された項目特性図を示している。図3のデータ数は400であり、図4のデータ数は100である。図3では、能力値θの増加に伴い、正答率(「2」の選択肢の解答率)も増加している。一方、図4では、最高群の能力値θの正答率が、最高群よりも少し低い能力値θの正答率よりも低い。図4の場合、ステップS103による判定が行われると、不適切と判定される。このように、データ数が少ない場合、項目が本来適切なものであっても、不適切と判定されることがある。
【0030】
図5は、本発明の実施形態に係る項目プールPLの更新方法を実行する手順を示すフロー図である。
項目プールの更新方法は、項目プールPLに新しい項目を追加し、不要な項目を削除するための方法である。項目プールPLの更新方法は、項目プール更新プログラムPR2が項目チェック装置1に実装されることにより実現される機能により実行される。
【0031】
演算処理部5は、追加する新規の項目の受検データDTを読み込む(ステップS201)。次に、各問題タイプ(科目等)において、解答数の上位5%の受検者を特定し、特定した受検者の受検データDTを削除する(ステップS202)。解答数が極端に多い受検者は、適当に解答している可能性が高い。このような受検者の受検データDTを削除することで、能力値θ又は項目パラメータ等の推定精度が向上する。
【0032】
ステップS202での特定の受検データDTの削除後、演算処理部5は、IRTに基づいて、受検データDTにおける各受検者の能力値θ及び各項目の各項目パラメータを推定する(ステップS203)。
【0033】
ステップS203での受検データDTの能力値θ及び各項目パラメータの推定後、演算処理部5は、記憶部4に記憶された項目プールPLの母数と新規の受検データDTとの間で、各項目パラメータを等化する(ステップS204)。演算処理部5は、このように等化して求まる項目母数を用いて、受検者の能力値θを再推定する(ステップS205)。
【0034】
演算処理部5は、再推定された能力値θを用いて、図1に示す項目チェックプログラムPR1による項目チェック方法により、各項目の適否を判定する(ステップS206)。なお、項目の適否の判定については、新規の受検データDTの項目に限らず、項目プールPLに蓄積された項目を対象に加えてもよい。この場合、項目プールPLに蓄積された項目については、図1に示す項目チェック方法と異なる判定基準を設けてもよい。例えば、実際の試験で、相当回数出題された項目は、不適切と判定して項目プールPLから削除してもよい。
【0035】
不適切と判定された項目がある場合は、演算処理部5は、その不適切の項目を削除して(ステップS207のYes、ステップS208)、ステップS203に戻り、受検データDTの能力値θ及び各項目パラメータを推定して、上記の手順を再度行う。これを不適切と判定される項目が無くなるまで繰り返す。
なお、1つの項目について、不適切か否かの判定は1回しか行わなくてもよい。具体的には、ある項目について、ステップS206で、一度不適切と判定され、2度目のステップS205で、能力値θが再推定された場合、2度目のステップS206の適否の判定は行わずに、ステップS209で、その項目を項目プールPLに追加してもよい。
【0036】
新たに不適切と判定された項目がない場合は、演算処理部5は、不適切と判定されなかった新規の項目が項目プールPLに追加され、項目プールPLを更新する手順を終了する(ステップS207のNo、ステップS209)。
【0037】
本実施形態によれば、項目チェックプログラムPR1による項目チェック方法を用いることで、適応型テストとして追加する項目を適切にチェックすることができる。また、項目チェックプログラムPR1により、項目チェック装置1で項目チェック方法を実行することで、追加する項目が多い場合でも、効率よくチェックすることができる。
【0038】
また、項目プールPLに項目を追加する場合、項目プール更新プログラムPR2を用いることで、追加する項目が多い場合でも、適応型テストに適した項目のみを項目プールPLに追加して、項目プールPLを効率的に更新することができる。
【0039】
なお、本発明は上述した実施形態に限定されず、構成要素を削除、付加又は変更等をしてもよい。また、複数の実施形態について構成要素を組合せ又は交換等をすることで、新たな実施形態としてもよい。このような実施形態が上述した実施形態と直接的に異なるものであっても、本発明と同様の趣旨のものは、本発明の実施形態として説明したものとして、その説明を省略している。
【符号の説明】
【0040】
1…項目チェック装置、2…入力部、3…出力部、4…記憶部、5…演算処理部、S101~S107…ステップ。
図1
図2
図3
図4
図5