Анализ тестовых заданий при использованиисистемы Moodle
Широкоеиспользование электронных систем управления обучением не в последнюю очередьобусловлено наличием в них средств, позволяющих сделать более технологичнойважнейшую составляющую процесса обучения, связанную с оценкой уровня освоенияучащимися изучаемого учебного материала. Речь идет об использованииавтоматизированных тестовых систем в качестве средства измерения уровняподготовки учащихся.
Для этихцелей в системе Moodle, как и в других современных системах аналогичногоназначения, имеется подсистема, позволяющая формировать банки тестовых заданийвсех основных форм – «в закрытой форме», «вычисляемые», «короткий ответ»,«числовые», «на соответствие», «вложенные ответы», и строить из них тесты,предназначенные для самоконтроля и тренинга, тематические тесты, тесты длятекущей и итоговой оценок уровня обучаемых и др.
Дляпреподавателя, использующего такого рода средства при преподавании своихучебных курсов, большая доля его труда состоит в создании банка тестовыхзаданий, обеспечивающего решение задачи оценки успешности освоения обучаемымипредставляемого им учебного материала. При этом неизбежно возникает вопрос окачестве разработанных и используемых тестовых заданий с точки зрения ихспособности адекватно решать задачу измерения уровня подготовки испытуемых,правильно дифференцировать их в соответствии с действительным уровнем ихподготовки. Дело в том, что тестовые задания, удовлетворяющие формальным требованиям,например, правильность формы, логическая точность и непротиворечивостьвысказываний и др., на практике могут не обладать качествами, позволяющимирассматривать их как полноценное средство измерения уровня подготовкииспытуемых.
Вообщеговоря, вопрос о способности конкретных контрольно-измерительных материалов вдействительности служить средством измерения уровня подготовки обучаемых имеетместо при использовании любой системы оценивания, в том числе и прииспользовании традиционных экзаменационных испытаний в устной или письменнойформе. Но именно при использовании автоматизированных тестовых систем возникаетвозможность реального применения для оценки качества используемыхконтрольно-измерительных материалов формализованных подходов, основанных на методологиитеории педагогических измерений. Становятся возможными накопление истатистическая обработка результатов испытаний и получение количественныххарактеристик, позволяющих оценивать качество тестовых контрольно-измерительныхматериалов.
Один из известныхподходов для такого анализа базируется на известной в теории педагогическихизмерений однопараметрической модели Раша. Практическое использованиепредлагаемых этой теорией подходов облегчается тем, что в системе управленияобучением Moodle имеются развитые встроенные средства для автоматизациивычисления по результатам выполнения тестовых заданий статистическихпоказателей, позволяющих осуществлять объективную оценку качества тестовыхзаданий с точки зрения их способности служить средством измерения уровня подготовкииспытуемых.
Дляосуществления Moodle такой обработки результатов тестирования необходимо на вкладкепросмотра результатов тестирования (рис. 1) перейти к пункту Анализвопросов.
Обработкарезультатов испытаний, необходимая для получения характеристик качестватестовых заданий, состоит в следующем.
Всоответствии с педагогической теорией измерений полученные испытуемымирезультаты испытаний представляются в виде матрицы следующего вида (рис. 2).
/>/>
Рис. 1.Скриншот системы Moodle со списком испытуемых, прошедших тестирование, иполученных ими результатов
/>
Рис. 2.Матрица результатов тестовых заданий
В столбцахэтой матрицы находятся результаты, полученные конкретными испытуемыми покаждому тестовому заданию, а по строкам размещаются результаты каждогоиспытуемого по соответствующему тестовому заданию. В нижней строке представленысуммарные значения баллов, набранных каждым испытуемым за тест в целом (Si= ∑xi j). Эти значенияиспользуются для формирования оценки уровня подготовки испытуемых по проверяемомуданным тестом учебному материалу. В правом столбце приведены суммы баллов, полученныхвсеми испытуемыми для каждого тестового задания (для j-го задания – Pj = ∑xij). По величине значений Pj уже можно судить остепени реальной легкости (трудности) конкретных тестовых заданий дляиспытуемых в данной группе – чем больше испытуемых правильно ответило наконкретное задание, тем это задание в среднем легче для выполнения. Дляпрактического использования, однако, в качестве меры легкости (трудности)заданий более пригодны относительные значения такого рода показателей. Этоиндекс легкости задания (ИЛ) и индекс трудности задания (ИТ):
/>
где xср – среднее значениебаллов, набранных всеми испытуемыми за выполнение j-го задания; xмакс j – максимально возможноеколичество баллов за выполнение j-го задания.
Этахарактеристики (ИЛ и ИТ) тестовых заданий являются мерой легкости (трудности)заданий для конкретной группы испытуемых. Значения этих параметров зависят отуровня подготовки испытуемых и не зависят от их числа. Одно из положенийпедагогической теории измерений состоит в том, что в тесте не должно бытьзаданий неизвестной трудности. Важность получения количественных характеристиклегкости (трудности) предлагаемых испытуемым заданий состоит в том, что длятого, чтобы эти задания обладали способностью дифференцировать испытуемых поуровню их подготовки, то есть служить средством измерения этого уровня, ихсложность должна соответствовать среднему уровню подготовки испытуемых вгруппе. Тест в целом должен включать в себя комплекс заданий различнойсложности – от достаточно простых до трудных, однако очевидно, что слишкомпростые задания, на которые правильно отвечают все до одного испытуемых, ислишком сложные задания, на которые не может ответить никто из испытуемых, необладают способностью дифференцировать их по уровню подготовки и в этом смыслеони не являются настоящими тестовыми заданиями. Такие задания должны«отбраковываться» и исключаться из теста.
Располагаяупорядоченные значения индекса легкости (трудности) заданий теста, как этопредставлено на рисунке 3, можно оценить степень соответствия составляющих тестзаданий среднему уровню подготовки испытываемой группы.
/>
Рис. 3.Значения индекса легкости заданий для тестируемой группы
Представленныеданные свидетельствуют о том, что используемая в примере база тестовых заданийдостаточно равномерно представляет вопросы различного уровня сложности, приэтом очень легких – «очевидных для всех» и очень сложных – «никем не решаемых»(то есть нетестовых заданий) практически нет, что говорит о соответствиикомплекса заданий этого теста среднему уровню подготовки испытуемой группы.
Другойхарактеристикой, которую позволяют вычислять встроенные в систему Moodle средства анализа результатовтестовых заданий, является дисперсия /> этихрезультатов (или их среднеквадратичное отклонение/>).Дисперсия результатов выполнения тестовых заданий вычисляется по формуле:
/>
обучение электронныйтестовый задание
Дисперсиярезультатов /> (или среднеквадратичноеотклонение />) характеризует разбросбаллов, полученных всеми N испытуемыми при ответе на конкретное (j-е) задание теста. Есливсе испытуемые отвечают на задание одинаково, то характеризуемый этимпараметром разброс полученных испытуемыми баллов будет равен нулю. Нулевое илинизкое значение разброса получаемых при выполнении конкретных тестовых заданийрезультатов в группе испытуемых свидетельствует о низкой дифференцирующейспособности этих заданий, то есть их слабой способности разделять испытуемых вгруппе по степени их подготовки. Такие задания подлежат исключению из теста.Чем выше дифференцирующая способность тестовых заданий (больше величинаразброса результатов), входящих в тест, тем выше качество теста.
На рисунке 4приведен пример графика упорядоченных значений среднеквадратичного отклонения /> результатов тестирования,нормированное на максимально возможное количество баллов xмакс j, то есть />j/xмакс j, которое можно получитьза выполнение j-гозадания.
/>
Рис. 4.Среднеквадратичное отклонение результатов выполнения заданий
Как видно изрисунка 4, для большинства использованных в примере тестовых заданийсреднеквадратичное отклонение имеет значение больше 0,3, что в соответствии стребованиями педагогической теории измерений является хорошим показателемдифференцирующей способности тестовых заданий. Задания же, для которых это значениеменьше 0,3, такой способностью не обладают, и поэтому они должны исключаться изтеста.
Еще однойважной статистической характеристикой качества тестовых заданий, которуюпозволяют вычислять средства Moodle, является коэффициент корреляции множествазначений ответов, полученных испытуемыми при выполнении конкретного задания, срезультатами выполнения этими же испытуемыми теста в целом, которыйрассчитывается по следующей формуле:
/>
где />; /> - дисперсия суммарныхрезультатов испытуемых за выполнение всех заданий теста; sср — среднее значение баллов, полученных всеми N испытуемыми за тест в целом; si-сумма баллов i-го испытуемого за выполнение всех заданий теста.
Этотпоказатель может принимать значения между –1 и +1 и в системе Moodle называетсяКоэффициентом Дифференциации (КД). Его использование в качестве характеристикиспособности конкретного тестового задания правильно дифференцировать испытуемыхпо степени их подготовки, основано на том, что в качественном тесте в среднемболее высокие баллы при ответе на каждое конкретное задание теста должныполучать испытуемые, набирающие более высокую сумму баллов за выполнение тестав целом. То есть между этими значениями должна быть положительная корреляция.Отрицательные же значения этого коэффициента свидетельствуют о том, что приответе на данное задание более «слабые» испытуемые в среднем получают болеевысокие баллы, чем более «сильные» испытуемые. Очевидно, что такие задания,возможно, в силу допущенных ошибок в их формулировке или каких-либо иных причинне являются настоящими тестовыми заданиями, и их также следует удалять изтеста.
На рисунке 5приведен пример упорядоченных по величине значений коэффициента дифференциации,полученные для тех же тестовых заданий, что и в примере на рисунке 6.
/>
Рис. 5.Коэффициент дифференциации тестовых заданий
Cчитается приемлемым, еслизначение этого коэффициента превышает +0,3. Из приведенных в примере на рисунке5 данных видно, что около 30-ти использованных в эксперименте тестовых заданийне удовлетворяют этим требованиям (КД
Встроенные в Moodle средства анализапозволяют также получать важную статистическую информацию, позволяющую улучшатьвнутреннюю структуру тестового задания. В частности, для одного из часто используемоготипа тестовых заданий, так называемых заданий в закрытой форме (выбор одногоили нескольких правильных ответов из множества предлагаемых), можно получитьданные, характеризующие эффективность работы каждого дистрактора такоготестового задания. Дистракторы (от англ. to distract – отвлекать) – этонеправильные, но правдоподобные ответы, предлагаемые в заданиях такого типанаряду с правильными ответами. Moodle позволяет определять относительную частотувыбора испытуемыми тех или иных дистракторов при выполнении конкретноготестового задания. Очевидно, что дистракторы, которые выбираются редко илисовсем не выбираются испытуемыми, являются неэффективными и, следовательно,должны быть изменены или удалены из списка дистракторов задания.
На рисунке 6представлен пример скриншота Moodle со статистическими характеристиками одного изтестовых заданий.
/>
/>Рис. 6. Скриншот Moodle со статистическимихарактеристиками дистракторов тестового задания
Приведенныевыше примеры показывают, что имеющиеся в системе Moodle средства не только даютвозможность практической реализации автоматизированного контроля уровняподготовки обучаемых, но и предоставляют преподавателю эффективный механизмулучшения качества тестовых заданий и повышения точности и объективности оценкиуровня испытуемых.
Возможностьвыявления не отвечающих необходимым требованиям заданий теста, а именно:слишком легких и слишком трудных заданий; заданий с малой дисперсиейрезультатов; заданий с низким или отрицательным значением коэффициентадифференциации, не только позволяет улучшать качество теста за счет исключенияиз него таких проблемных заданий. Сам по себе анализ таких заданий, выяснениепричин, из-за которых они попали в «проблемную» группу, также обладает дляразрабатывающего тест преподавателя большим методическим потенциалом. Например,обнаружение того, что некоторое задание оказалось слишком трудным для группыиспытуемых, может говорить не о дефекте самого задания, а о недостатках впроработке преподавателем на занятиях или в предлагаемых студентамучебно-методических материалах соответствующего раздела учебного курса. Анализсамих «проблемных» тестовых заданий или их неэффективных дистракторов можетпобуждать к переработке формы и содержания таких заданий с целью устранения ихдефектов.
Говоря овлиянии качества тестовых заданий на способность теста служить средством дляизмерения уровня подготовки учащихся, следует иметь в виду, что на погрешноститеста как средства измерения на практике могут значительно влиять внешниефакторы, связанные с самой процедурой тестирования. Это, в первую очередь,факторы, связанные с нарушением принципа равенства требований и условийпроведения тестирования для всех испытуемых.
Одним изтаких факторов является угадывание испытуемыми результатов тестовых заданий.Для тестовых заданий, в особенности для заданий закрытого вида (выбор одногоили нескольких правильных ответов из конечного числа предлагаемых вариантов),существует ненулевая вероятность угадывания испытуемым правильных ответов приих случайном выборе. Очевидно, что чем больше такая вероятность, тем выше погрешностьизмерения при использовании теста, приводящая к дискриминации добросовестныхиспытуемых, то есть испытуемых, не прибегающих к угадыванию. Высказываетсягипотеза о том, что чем ниже уровень знаний испытуемого, тем сильнее онмотивирован на угадывание, и для компенсации этого эффекта предлагаетсявведение поправок на угадывание в исходный тестовый балл испытуемого.
В связи сэтим одной из важных задач, решаемых при составлении тестового задания, должнобыть максимальное снижение вероятности угадывания правильного ответа на него.Этим целям служит, в частности, увеличение числа дистракторов в тестовыхзаданиях закрытого типа, так как очевидно, что наибольшей уязвимостью в этомплане обладают тестовые задания с малым числом дистракторов, в особенностизадания с выбором одного правильного ответа из двух предлагаемых, для которыхвероятность угадывания составляет ½. Это является серьезным недостаткомтакого типа тестовых заданий, вследствие которого их использование в тестеявляется крайне нежелательным. Проблема, однако, состоит в том, что в целомряде случаев специфика предметной области конкретного тестового задания непозволяет выйти за рамки выбора одного из двух состояний. Например, в случаепроверки знания испытуемым функционирования цифровых логических схем, сигналына входах и выходах которых принципиально могут находиться в одном из двухсостояний – 0 или 1 (true или false). В таких случаях можно рекомендоватьобъединение в одном тестовом задании нескольких вопросов с выбором одного издвух состояний. Система Moodle позволяет строить такого рода усложненныезадания, пример которого приводится на рисунке 7.
/>
Рис. 7.Пример объединения в одном тестовом задании нескольких вопросов с выборомодного из двух состояний
Большиевозможности с точки зрения составления тестовых заданий с низкой возможностьюугадывания правильных ответов в системе Moodle предоставляет тип задания,называемый Вложенные ответы, позволяющий объединять в одном задании вопросы сответами разных типов. Задания типа Вложенные ответы состоят из текста,непосредственно в который вставляются ответы на вложенные в этот текст вопросытипов – Множественный выбор, Короткие ответы и Числовые (рис. 8).
/>
Рис. 8.Пример тестового задания типа Вложенные ответы
Другимпрактически значимым фактором, нарушающим принцип равенства требований иусловий проведения тестирования для всех испытуемых, является возможностьполучения испытуемыми во время прохождения тестирования доступа к правильнымответам на задания теста. Каналами такого доступа могут быть подсказки другихиспытуемых, подсматривание ответов у соседа, использование шпаргалок, а сейчаси использование сторонней дистанционной помощи с применением современныхтехнических средств компьютерной и мобильной связи.
Дляпротиводействия возможностям такой компрометации процедуры тестированияиспользуется целый ряд известных средств.
Во-первых,это использование в тестовых заданиях типа Множественный выбор опции случайногоперемешивания ответов при каждом предъявлении задания испытуемым. Это устраняетсвязывание правильных ответов с порядковым номером предъявляемых ответов,исключая использование порядкового номера правильных ответов при составлениишпаргалок и списывании.
Опытиспользования тестовых технологий показывает, что при формировании набора тестовыхзаданий составляющих тест, предназначенный для многократного использования дляразных тестируемых, является совершенно не оправданным предположение о том, чтоиспользуемый в тесте фиксированный набор заданий может оставаться неизвестным инеожиданным для испытуемых сколько-нибудь продолжительное время. Дляобеспечения действительно надежного фактора новизны предлагаемого конкретномуиспытуемому набора тестовых заданий наиболее эффективным является формированиесценария теста путем случайного выбора каждого конкретного тестового задания измножества однотипных заданий, однородных по уровню сложности. Такоеформирование тестов может быть обеспечено только при наличии достаточнобольшого исходного банка тестовых заданий по каждому разделу учебной дисциплины,по которой осуществляется контроль знаний испытуемых.
/>При этом следует, однако, учитыватьследующее обстоятельство. Выше были рассмотрены показатели тестовых заданий –мера трудности задания, вариация результатов его выполнения в группеиспытуемых, его дифференцирующая способность, характеризующие качествотестового задания как средства измерения уровня подготовки испытуемого. Важноиметь в виду, что эти показатели являются статистическими величинами,получаемыми путем усреднения по выборке выполняющих их испытуемых, и,следовательно, обеспечение точности их экспериментального определенияпринципиально требует их апробации на возможно большем количестве испытуемых.При этом, однако, оказывается, что это требование вступает в противоречие снеобходимостью практического формирования сценария тестирования путемслучайного выбора предъявляемых конкретному испытуемому тестовых заданий изболее или менее обширного банка заданий, целью которого является снижениевероятности включения одних и тех же тестовых заданий в разных сеансахтестирования по одному и тому же тесту. Очевидно, что в этом случае, даже прибольшом общем количестве реально участвующих в тестировании испытуемых, количествоиспытуемых, которым реально достанутся одинаковые тестовые задания, будетсущественно ниже, что неизбежно снижает надежность вычисляемых показателейкачества тестовых заданий при их анализе. Это противоречие обязательно следуетучитывать как при формировании сценариев тестирования, так и при интерпретацииавтоматически рассчитываемых системой статистических показателей качестватестовых заданий для поиска необходимого компромисса.
Библиографическийсписок
1. Головач,В.В. «Текст в интерфейсе» [Электронный ресурс] / В.В. Головач, Е. Филатова.– URL:usethics.ru/lib/vs.html.
2. Коменский,Я.А. Великая дидактика [Текст] / Я.А. Коменский // Избр. пед.соч. – М.: Учпедгиз, 2008.
3. Подласый,И.П. Тестирование в учебном процессе: его история и возможности[Электронный ресурс] / И.П. Подласый. – URL:www.elitarium.ru/2006/04/08/
4. Rasch, G. Probabilistic Models for Some Intelligence andAttainment Tests. Copenhagen, Denmark: Danish Institute for EducationalResearch [Text] / G. Rasch. – 2010.
5. Ким, В.С. Тестированиеучебных достижений [Текст]: монография / В.С. Ким. – М.; Уссурийск: Изд. УГПИ,2007. – 214 с.