Сергей Сосновский, Елена Щербинина, Петр Брусиловский
Школа Информатики
Университет Питтсбурга
Параметризуемые Web-тесты являются одним из наиболееперспективных видов оценивания знаний с помощью Web. В режиме тестированияотносительно небольшой набор параметризованных вопросов может быть использовандля организации надежной оценки знаний (с защитой от списывания) больших группстудентов. В режиме самооценки один и тот же вопрос с иными значениямипараметра может быть повторно использован студентом для повышения уровнязнаний. Данная статья описывает результаты объективного и субъективногооценивания параметризуемых web-тестов, как средства обучения программированию.Результаты эксперимента позволяют говорить о том, что параметризуемые тесты,организованные на основе нашей системы QuizPACK представляют собой эффективноесредство обучения. Кроме того, показано, что данное средство было особеннополезно для женской части класса, традиционно испытывающей наибольшиезатруднения при изучении программирования.
Вступление
Web-тесты являются основным средством оценки исамооценки знаний студентов для онлайнового обучения. Все ведущие платформы Web-обученияподдерживают создание и доставку онлайновых тестов, созданных на основестатических вопросов. Развитие данной составляющей электронного обученияпротекает в нескольких направлениях. Одним из наиболее перспективных являетсясоздание индивидуализируемых или параметризуемых тестов.
Параметризуемый вопрос по существу представляет собойшаблон вопроса, создаваемый автором. В момент выдачи, шаблон дополняетсяпараметром, значение которого генерируется в заранее установленных границах.Каждый шаблон способен произвести значительное количество вопросов. Такимобразом, в режиме тестирования на основании достаточно малого количествашаблонов вопросов может быть организована оценка знаний большой группыстудентов. Более того, один и тот же шаблон может быть использован в различныхверсиях одного курса, в разных семестрах и даже в разных курсах. В режимесамооценки вопрос может быть использован снова и снова с различными значениямипараметра, позволяя студентам достигать высоких уровней обученности. Параметризуемыешаблоны вопросов, обладая защитой от списывания, приобретают возможностьповторного использования и не обесцениваются со временем, что позволяеторганизовывать на их основе библиотеки тестов, повторно-используемые в разныхкурсах и разных семестрах.
Индивидуализируемые вопросы были подробно исследованыспециалистами в области обучающих технологий. Не так давно они вновь оказалисьв фокусе внимания, став одним из перспективных направлений развития технологийобучения с помощью Web. Авторы ряда систем, таких как CAPA, WebAssign, EEAP282,или Mallard, ставили задачу исследовать использование индивидуализируемыхвопросов с разных сторон. Многообещающая модель была предложена в системе CAPA.Авторы CAPA не ограничивали круг задач лишь созданием нового средства дляавторизации и администрирования индивидуализируемых упражнений; они такжепровели ряд подробных исследований этой технологии. Результаты нагляднопоказывают, что индивидуализируемые упражнения могут существенно снизитьпроцент списывания, увеличить уровень понимания студентом учебного материала иповысить результаты экзамена.
Индивидуализируемые вопросы были использованы вкачестве технологии оценки знаний в таких областях как физика, химия илиматематика, где вопрос может быть создан на основе параметризуемой формулы.Общее направление нашего исследования состоит в том, чтобы применитьпараметризуемые вопросы в нетрадиционной для них областях обученияпрограммированию. Оценка знания программирования отлична от оценки знаний вобластях, «основанных на формулах». Индивидуализируемое тестирование не былоранее реализовано при обучении программированию. Нами была создана системаQuizPACK, способная доставлять онлайновые динамические индивидуализируемыеупражнения для студентов изучающих программирование на языке С. Предыдущаяверсия системы QuizPACK была представлена на конференции ED-MEDIA’02.
С точки зрения пользователя интерфейс системы осталсяпрактически тем же, что и в предыдущей версии. Параметризованное упражнениевыдается студенту в виде вопроса «открытого типа» (рис. 1а). Одна или болееконстант, присутствующие в теле вопроса, определяются значением формирующегопараметра. Таким образом, они различны для разных студентов или для одного итого же студента, отвечающего на вопрос несколько раз. Студент должен заполнитьполе ответа и нажать кнопку «Submit» («Отправить»). В ответ система генерируетэкран оценки (рис. 1б), позволяющий студенту проанализировать вопрос и ответ. Вчастности, студент может решить попробовать ответить на вопрос еще раз, воспользовавшиськнопкой браузера «Назад» и перезагрузив вопрос. Мы приглашаем читателей пройтиопытный тест по адресу: www2.sis.pitt.edu/~taler/QuizPACK.html
/>
а)
/>
б)
Рисунок 1. Пользовательский интерфейс системыQuizPACK.
Мы рассматриваем QuizPACK одновременно какпрактическое средство для обучения и как средство для проведения исследований.QuizPACK был апробирован при обучении программированию студентов несколькихгрупп 2001-2003 годов. Цель нашего нынешнего исследования провестисистематический анализ использования параметризуемых тестов при обучениюпрограммированию. Мы хотим найти такие пути использования данной технологии вкурсах, связанных с программированием, которые бы максимизировали ее сильныестороны и минимизировали известные проблемы. В прошлом нами уже былоорганизовано несколько небольших экспериментов по использованию QuizPACK в рядекурсов. Проведенные эксперименты помогли нам разработать улучшенную версиюсистемы и подготовить большое количество параметризуемых вопросов. В дальнейшемстатья описывает наше последнее, обширное исследование, проведенное весной2003. Следующий раздел посвящен цели исследования, а затем мы подробноописываем полученные результаты. Техническая составляющая проекта QuizPACK, атакже реализация системы не затронуты в данной статье ввиду ограничений наразмер текста.
Оценивание параметризуемых тестов как средстваобучения
В настоящее время параметризуемые вопросы в основномиспользуются в качестве средства оценки знаний, к чему располагает возможностьорганизации тестирования с защитой от списывания и аккумуляции базповторно-используемых вопросов. Однако, предыдущий опыт работы с QuizPACKпоказал, что студентов гораздо больше интересует использование параметризуемыхвопросов для самооценки. В действительности, при правильном позиционированиипараметризуемые вопросы могут стать чрезвычайно полезным средством обучения. Вто время, как классические упражнения для самооценки всего лишь позволяютстудентам оценить их общий уровень знаний по конкретной теме и решить, есть линеобходимость в дальнейшей работе с литературой, параметризуемые тестыпозволяют студентам тренировать свои знания по данному топику и тем самымдостигать более высоких уровней знания. Неправильный ответ на параметризуемыйвопрос формирует сфокусированную обучающую ситуацию. Студент может болеедетально изучить темы, вовлеченные в вопрос, и проверить свои знания уже нановом уровне, попытавшись ответить на тот же вопрос но с другим значениемформирующего параметра. Такой обучающий цикл может быть повторен несколько раз,пока не будет достигут необходимый уровень понимания. Наше исследование ставилоцелью ответить на вопрос, является ли практика использования параметризуемыхвопросов как средства обучения привлекательной для студентов и полезной для ихзнаний.
Эксперимент был проведен во время весеннего семестра2003 г. в рамках курса для студентов-бакалавров «Введение в программирование»,преподаваемого в Университете Питтсбурга. QuizPACK был одним из обучающихсредств, доступных студентам этого курса. Для каждой из 16 лекций части курса,отведенной под изучение С, QuizPACK предлагал 2 теста по 5 вопросов в каждом.Хотя, наш предыдущий опыт показывал, что многие студенты используют QuizPACK нарегулярной основе, мы попытались обеспечить дополнительную мотивацию. С этойцелью мы изменили формат еженедельных тестов, проводимых в классе. Вместотрадиционных вопросов с множественным выбором мы использовали вопросы открытоготипа, взятые непосредственно из базы QuizPACK. Таким образом, еженедельностуденты брали 10-минутный тест, составленный из используемых в QuizPACK 5вопросов, которые могли им встречаться (с другими значениями формирующегопараметра) во время самостоятельной работы с системой. Это обеспечивалодополнительную мотивацию, исключая при этом вероятность списывания. Врезультате количество студентов, активно использующих QuizPACK возросло на 1/3по сравнению с предыдущим семестром. В следующем разделе мы описываем детали ирезультаты проведенного эксперимента.
Оценивание системы QuizPACK
Целью оценивания являлось определение объективной исубъективной «полезности» QuizPACK, как средства обучения. Чтобы определить «объективнуюполезность» мы пытались найти взаимосвязь между показателями работы студентов ссистемой и оценками их работы в течение курса. Две компоненты оценки за курсбыли использованы: суммарная оценка за краткие тесты, которые студенты сдавалив классе еженедельно, и результат на экзамене. Нужно отметить, что эти двапараметра достаточно различны. Тогда как тесты проверяли знание языка С и егосемантики, экзамен в основном оценивал навыки программирования – способностьпонимать, модифицировать и создавать программы. В дополнение к этим двумпараметрам мы должны были учесть начальный опыт студентов. Начальные знания вобласти программирования на С и программирования вообще у студентов нашегокурса (как и в любом вводном курсе) значительно разнятся – от практическиотсутствующих до позволяющих писать законченные программы. Естественным было быожидать, что оценки студентов на тестах и экзамене будут зависеть не только отработы в течение класса (в том числе и с QuizPACK), но также и от их предыдущихзнаний. Для изоляции фактора начального опыта было проведено предварительное (вначале первой лекции) и результирующее (во время экзамена) тестированиестудентов. Тесты представляли собой один и тот же набор из 10 вопросов, взятыхиз QuizPACK, но с разными значениями формирующего параметра. На основании этоготестирования мы получили новый параметр – прирост знаний – как разницу междурезультатами начального и результирующего тестов.
Для оценивания субъективного мнения студентов осистеме по окончании курса мы предложили студентам, которые наработалидостаточную статистику взаимодействия с системой, заполнить вопросникотносительно различных характеристик QuizPACK. «Достаточным»считалось взять в QuizPACK 10 или более тестов по 6 или более различным темам втечение нескольких сессий, разнесенных на 20 или более дней. Для дополнительноймотивации за участие студентам начислялось небольшое количество добавочныхбаллов.
Объективное оценивание
Был проведен линейный регрессионный анализ (сиспользованием пакета SPSS) с целью обнаружить взаимосвязь между работойстудентов с QuizPACK, измеряемой независимыми переменными и прогнозируемымипеременными. Данный вид анализа традиционно применяется для изученияпричинно-следственных зависимостей между переменными. Как уже было сказано, вкачестве прогнозируемых переменных мы выбрали оценку на заключительномэкзамене, (измеряемую в %), семестровые результаты еженедельного тестирования(измеряемые в баллах; максимум – 45) а также прирост знаний (измеряемый вбаллах). Независимыми переменными стали активность, измеряющая общее количествовопросов QuizPACK, на которые студент пытался дать ответ, и успешность –процентное соотношение правильных ответов, определяемое как число вопросов, накоторые был получен правильный ответ к общему числу взятых вопросов. Необходимоотметить, что ответ на каждый параметризуемый вопрос может быть дан студентомнесколько раз. Каждая попытка (корректная или нет) учитывается при вычисленииактивности и успешности. Наиболее часто студенты работали с одним вопросом дотех пор, пока система не просигнализирует о правильном ответе, однако некотороеколичество студентов демонстрировали иной паттерн пользователя, продолжаяотвечать на вопрос даже после первой удачной попытки, закрепляя успешныйрезультат.
Характеристики МоделиR
R2
Скорректированное
R2 Стандартная ошибка оценки 0.578 0.335 0.251 18.15815
Независимые переменные:
(Константа), Активность, Успешность
ANOVA/> Сумма квадратов Число степеней свободы Среднее F Значимость Регрессия 2653.030 2 1326.5 4.023 0.038 Остаток 5275.496 16 329.7 Итог 7928.526 18
Независимые переменные:
(Константа), Активность, Успешность Нестандартизованные коэффициенты Стандартизованные коэффициенты t Значимость B Стандартная ошибка β (Константа) 25.635 13.098 1.957 .068 Активность 60.573 25.329 .517 2.391 .029 Успешность .027 .041 .140 .648 .526
Таблица 1: Влияние работы с QuizPACK на оценку затестирование
Результаты регрессионного анализа влияния работы сQuizPACK на результаты, которые студенты показывали на еженедельных тестах,приведены в таблице 1. Как можно увидеть, существует статистически значимаясвязь между независимой переменной успешность и суммарной оценкой затестирование (значимость = 0.029, т.е. ниже порогового значения 0.05). ПараметрR2 равен 0.335, т.е. работа с QuizPACK объясняет около 34% оценки затестирование. Значимость всей модели также достаточно высока (0.038
Иные результаты были получены в результатерегрессионного анализа влияния работы с QuizPACK на оценку на экзамене. Влияниепеременной успешность менее значимо. Параметр R2 равен 0.19, т.е.только 19% оценки на экзамене может быть объяснено работой с QuizPACK.Значимость всей модели не высока (0.192 > 0.05). Значимость переменнойуспешность также не высока, однако мы можем заключить, что она имеет некотороевлияние на зависимую переменную (0.088 хотя и больше, но близко к пороговомузначению 0.05).
В обоих случаях мы не обнаружили видимого влиянияпеременной активность на зависимые переменные. Это означает, что успешнаяработа студента с QuizPACK положительно влияет на знания семантики языка,измеряемые тестами, а также имеет некоторое влияние на общие навыкипрограммирования, оцениваемые на экзамене. В то же время, показано, что лишь«играя» с QuizPACK, студент не добивается прогресса, для этогонеобходимы усилия, стремление ответить правильно.
Приведенной выше анализ не претендует на выявлениероли QuizPACK полностью. Он не позволяет выделить причину успешности работыстудентов с QuizPACK. Естественно, некоторые из них попросту обладалидостаточно высоким уровнем начальных знаний. Эти студенты использовали QuizPACKболее как средство для самопроверки, зачастую давая правильные ответы с первойпопытки. В отличие от них новички должны были работать с QuizPACK более настойчиво,тратя несколько попыток на один вопрос, чтобы добиться одного или болееправильных ответов. Для учета этого фактора мы проанализировали влияниеQuizPACK на прирост знаний.
Результаты регрессионного анализа влияния работы cQuizPACK на прирост знаний приведены в таблице 2. Как мы можем увидеть,независимая переменная активность имеет статистически значимое (значимость =0.023) влияние на прирост знаний. Параметр R2 (0.309) показывает,что активность работы с QuizPACK объясняет 31% прироста знаний студентов.Значимость всей модели (0.052) находится очень близко от порогового значения(0.05). В то же время переменная успешность не имеет значимого влияния наприрост знаний. Анализ студенческих профилей показал, что низкий прирост знанийбыл получен двумя группами студентов: студентами с высоким уровнем начальныхзнаний, получившими хорошие оценки как на предварительном, так и назаключительном тестировании, и студентами, не приложившими достаточно усилий втечение курса не смотря на низкий уровень начальных знаний, и получившимиплохие результаты на обоих тестированиях. Обе эти группы работали с QuizPACKменьше чем студенты курса в среднем, однако имели совершенно разные значенияуспешности. В то же время, те новички, кто работал с QuizPACK достаточно много,в итоге заработали высокий прирост знаний. Это показывает, что QuizPACK можетбыть использован не только как обычное средство для самооценки, но и каксредство обучения.
Характеристики МоделиR
R2
Скорректированное
R2 Стандартная ошибка оценки 0.556 0.309 0.222 1.60708
Независимые переменные:
(Константа), Активность, Успешность
ANOVA Сумма квадратов Число степеней свободы Среднее F Значимость Регрессия 18.466 2 9.233 3.6 0.052 Остаток 41.323 16 2.583 Итог 59.789 18
Независимые переменные:
(Константа), Активность, Успешность Нестандартизованные коэффициенты Стандартизованные коэффициенты t Значимость B Стандартная ошибка β (Константа) 5.655 1.159 4.878 Таблица 2: Влияние работы с QuizPACK на прирост знаний
На качественном уровне значение QuizPACK также можетбыть оценено. Из 46 студентов в нашем классе только 11 проигнорировали QuizPACK(не использовали его вовсе или использовали лишь на вопросах количеством менее15). Показательно, что шесть из этих одиннадцати в итоге не были аттестованы покурсу, получив «1»или «2». В то же время наименьшийитоговый бал среди студентов, использовавших QuizPACK в течение курса на регулярнойоснове, — «3»; все они закончили курс успешно. Из оставшихся пятистудентов у четверых оценки за первую половину курса гораздо выше оценок завторую половину. Первая половина курса в основном была посвящена изучению средыдля обучению программированию «Karel the Robot» и оценивала болеепотенциал студентов в области программирования в целом, в то время как вовторой половине курса студенты изучали только С и были оцениваемы исходя из ихуровня знаний языка С. Единственный студент из тех 11, кто получил хорошие оценкиза обе части курса, не смотря на отсутствие работы с QuizPACK, имел оченьвысокий начальный уровень программирования.
Субъективное оценивание
Из 46 студентов нашего класса 31, кто получилдостаточное количество опыта работы с QuizPACK (всего таких студентов было 35),по окончании курса заполнили вопросник отражающий их оценки системы.Дискриминантный анализ, проведенный для оценки качества собранных данных,показал, что данные 95.2% процентов респондентов валидны.
В связи с ограничениями на размер данной статьи нижемы в основном проанализируем лишь 4 из 12 вопросов, на которые студенты давалиответ. На рисунке 2 изображены суммарные результаты по этим вопросам. Первый изних оценивает общее отношение студентов к системе. Большинство (87.10%)считают, что тесты для самооценки «могут существенно помочь в течениекурса», 6.45% ответили, что тесты для самооценки «могут помочь втечение курса», еще 6.45% сказали, что система «иногда полезна».Ни один из студентов не оценил QuizPACK как «бесполезный в течение курса».
Отвечая на второй вопрос, студенты давали свою оценкуспособности системы генерировать параметризованные вопросы и тем самым даватьвозможность работать с одним и тем же вопросом несколько раз. Подавляющеебольшинство (80.65%) респондентов ответили, что данное свойство «оченьполезно», 16.13%, ответили, что оно «полезно» и только 3.23% — что оно «может быть полезно, но лишь изредка». Ни один из студентовне ответил, что эта способность системы «бесполезна».
Следующий вопрос оценивал тип и содержание тестовогоматериала. 29.03% студентов посчитали, что тестовый материал «именнотакой, чтобы быть наиболее полезным», 64.52% ответили, что тип исодержание тестов «в целом хорошие и полезные», 6.45% — что они«иногда полезны, но могли бы быть гораздо лучше». Не былозафиксировано ни одного ответа «абсолютно бесполезны».
На вопрос об интерфейсе системы мы получили следующиеответы: 45.16% — «очень хороший», 38.71% — «хороший» и16.13% — «обладает некоторыми недостатками». Вновь ни один изстудентов не ответил, что интерфейс QuizPACK «имеет серьезныепроблемы».
Как показывают вышеприведенные данные, студентынастроены в отношении QuizPACK очень позитивно. Более 90% ответов на первые тривопроса составляют ответы типа «очень хорошо» и «хорошо».Более того, на первые два вопроса больше 4/5 студентов давали ответы«очень хорошо». Мы оценивали несколько различных систем, используемыхв этом классе. Результаты QuizPACK превосходят все остальные. Даже относительнопростой интерфейс – получивший, возможно, наименее высокие оценки среди всехостальных свойств системы – был оценен 80% студентов положительно. Мы такжесчитаем интересным тот факт, что ответы, полученные на вопрос о способностисистемы генерировать параметризуемые тесты, хорошо коррелируют с ответами навопрос от общем отношении к системе. Ни один из других вопросов не собрал такихданных. Возможным объяснением этому факту может быть то, что крайне позитивноеотношение студентов к системе взаимосвязано с возможностью системы генерироватьпараметризуемые вопросы.
/>
Рисунок 2: Отношение студентов к различным свойствамQuizPACK
Надежность этого оценивания может быть также проверенапоследовательностью ответов на схожие вопросы. Так, например, студенты былиопрошены согласны они или нет со следующим утверждением: «Я посоветуюмоему другу, если он будет в этом классе, использовать QuizPACK».Следующие данные были получены: 79.97% студентов «полностьюподдерживают» данное утверждение, 12.9% «поддерживают» его,16.13% «не имеют определенного мнения» на этот счет. Ни один изстудентов не ответил, что он/она «не согласны» или «полностью несогласны» с этим утверждением. Как мы можем видеть, эти данные оченьблизки к данным, отражающим общее отношение студентов к системе. Этот фактможет косвенно подтверждать валидность субъективного оценивания системыстудентами.
Два следующих вопроса выясняли, что студенты думают поповоду использования QuizPACK, как источника для еженедельного внутриклассноготестирования. 67.74% студентов полагают, что «это очень правильнаямера», 25.81% считают, что это «правильно», 6.45% ответили,«это имеет некоторый смысл, но отнюдь не идеально». Ни один изстудентов не посчитал, что «это совершенно неправильная мера».Относительно использования QuizPACK как средства для подготовки к тестированиюв классе, 58.06% думают, что QuizPACK «сильно помог», 32.26% сказали,что он «помог», 9.68%, что он «немного помог», ни одногоответ «не помог» не было получено.
Работа с QuizPACK поощряла студентов к более активномуиспользованию таких средств программирования как «отладчик». Более51% студентов ответили, что они «использовали отладчик чтобы обнаружитьгде они ошиблись, давая неправильный ответ», «почти всегда» или«часто», 35.48% сказали, что они использовали его «иногда»и только 12.9% ответили, что они не использовали отладчик при работе сQuizPACK.
В дополнение к общему анализу мы попытались сравнитьотношение к системе для разных групп студентов. На данный момент мы завершилисравнение ответов для групп, выделенных по половому признаку, и получилидовольно интересные результаты. На рисунке 3 изображены профили ответов, данныестудентами и студентками. Мы подсчитали средние значения для ответов навопросы, оценивающие основные свойства системы, и выразили их в процентах. 100%означает что все студенты в этой группе дали ответ «очень хорошо».Заметно, что график обозначающий ответы женщин проходит выше«мужского» графика для всех вопросов. Разница достаточно существеннаи для некоторых вопросов составляет 10%. В частности, график показывает, чтовсе студенты в женской группе выразили стопроцентно-положительное отношение ксистеме в целом и к ее способности генерировать параметризуемые вопросы. Этотфакт не обусловлен тем, что студентки больше/меньше работали с системой илибыли более/менее успешны. Данные говорят об обратном: среднее количествовопросов, на которые пытались ответить студенты в течение семестра – 187 дляженщин и 178 для мужчин. Разница между средним значением успешности – практическинулевая (37.12% правильных ответов для женщин и 37.26% -для мужчин). Возможнойобъяснением может быть предположение, что исключительно положительное отношениестуденток к системе отражает тот факт, что в течение курса QuizPACK былдействительно важным средством обучения для них. Важно и то, что в нашем курсеженщины, традиционно показывающие менее высокие результаты по техническимпредметам, нежели мужчины, в итоге получили более высокую среднюю итоговуюоценку. Интересно также и то, что даже студентки, получившие в итоге«3», «4-» или ниже, тем не менее высказали свое одобрениесистемы.
/>
Рисунок 3: Профили ответов для студентов и студенток
Заключение
Мы доложили результаты исследования, в котором быласделана попытка оценить роль параметризуемых тестов как средства обучения вконтексте курса программирования. Эксперимент показал, что успешность работыстудентов с рассматриваемой системой коррелирует с оценкой на экзамене. В то жевремя объем работы студентов с параметризуемыми тестами статистически-значимопредсказывает прирост знаний в течение курса. Система QuizPACK, с помощьюкоторой студенты проходили тестирование, была ими оценена очень высоко.Наиболее высокую оценку получила возможность системы генерироватьпараметризуемые вопросы со случайным числовым параметром. Женщины оценивалиразличные свойства QuizPACK более позитивно чем мужчины. На некоторых вопросов100% студенток дали самые положительные ответы. Эти результаты свидетельствуюто том, что системы, администрирующие параметризуемые тесты, такие как QuizPACKмогут служить исключительным средством обучения в контексте курсовпрограммирования. Очевидно, также, что QuizPACK был особенно полезен дляженщин, обычно имеющих более низкую успеваемость в курсах программирования, чеммужчины. Мы планируем провести более подробный анализ с тем чтоб установить,для каких групп студентов QuizPACK наиболее полезен.
Список литературы
Для подготовки данной работы были использованыматериалы с сайта ifets.ieee.org/