Анализ тестовых материалов

Содержание: Введение………………………………………………………………………… 2 Глава 1. Модели и методы оценки качества тестовых заданий. ……………. 7 1.1. Классические методы оценки качества тестовых заданий. ………… 9 1.2. IRT – теория моделирования и параметризации педагогических тестов. ……………………………………………………………………………….20
Глава 2. Математико–статистическая обработка эмпирических данных. …. 30 2.1. Однопараметрическая модель Раша. …………………………………. 31 2.2. Точечно-бисериальный коэффициент корреляции. …………………. 33 2.3. Коэффициент корреляции. ……………………………………………. 35 Заключение. ……………………………………………………………………. 38 Список литературы. …………………………………………………………… 39 Приложение 1. ……………………………………………………………… 41 Приложение 2. ……………………………………………………………… 44 Приложение 3. ……………………………………………………………… 53 Глоссарий. ………………………………………………………………… . 54 Введение. При изучении любой учебной дисциплины есть особенно важные темы, без знания которых невозможно усвоение более сложного материала в процессе учебы или которые будут необходимы в работе по специальности. Важность разделов курса можно учесть, увеличив долю вопросов по этим разделам в общем количестве вопросов. Однако наиболее важные разделы не всегда содержат больше всего материала. При составлении заданий теста следует соблюдать ряд правил, необходимых для создания надежного, сбалансированного инструмента оценки знаний. В первую очередь, необходимо проанализировать содержание заданий с позиции равной представленности в тесте разных учебных тем, понятий, и т.д. Важно выбирать наиболее приемлемую форму ответов на задания. Для аттестации студентов необходимо решить задачу измерения уровня обученности в области знаний, навыков и умений, с учетом степени важности и объема изучаемого материала в разделах курса. При создании тестов возникают определенные трудности в части формирования шкалы оценок выполнения заданий. Традиционная Российская система оценивания знаний обучаемых основана на лингвистических оценках, по которым проставляются записи в зачетных книжках за период обучения, производится учет успеваемости, устанавливается стипендия и т.д. Очевидно, что при формировании такой шкалы оценок велика доля субъективизма, поскольку здесь многое зависит от опыта, интуиции, компетентности и профессионализма преподавателя. Кроме того, требования, предъявляемые разными преподавателями к уровню знаний студентов, колеблются в очень широких пределах. При формировании шкалы оценок довольно часто встречается метод “проб и ошибок”. Поэтому реальные знания учащегося не получают объективного отражения и как негативное последствия - снижается стимулирующее воздействие экзаменационной оценки на познавательную деятельность и качество учебного процесса в целом. В некоторых моделях тестирования оценивание результатов производится только по факту правильности ответа, т.е. ход решения в задачах не проверяется и не оценивается. Таковы, например, закрытые задания с однозначным числовым ответом или бинарные тесты. Первичной информацией при тестировании знаний является набранный балл испытуемых или так называемый первичный балл. Достоинством этой оценки является ее простота и наглядность, Действительно, чем больше заданий выполнил испытуемый, тем выше его балл. Однако проблема заключается в том, что первичный балл является не абсолютной, а относительной оценкой. Он существенно зависит от трудности заданий теста и на другом тесте он может оказаться иным, причем сама трудность теста в свою очередь определяется всем контингентом испытуемых. Желательно иметь объективную оценку уровня подготовленности испытуемых, подтверждаемую на различных тестах, имеющих заранее определенный уровень трудности заданий. Вторым существенным недостатком первичных баллов является их нелинейность по отношению к тем параметрам, которые они должны характеризовать (уровень подготовленности). Сравнивая первичные баллы необходимо понимать, что первичные баллы являются лишь индикатором подготовленности испытуемых, а не ее мерой. Любая информация для ее последующего применения в заданиях теста должна быть представлена определенным количественным показателем, рассчитанным с использованием условной единицы образовательной информации Для педагогических измерений проблема качества является ключевой. Не случайно вопросы достижения и проверки качества являются основным предметом исследования. В практике некачественное измерение порождает ошибочные решения при аттестации выпускников школ, вузов, оценке кадров в профотборе и при приёме абитуриентов в вузы, создаёт иллюзию измерений там, где таковые в действительности отсутствуют. К настоящему времени только в отношении тестов утвердилась норма обязательной проверки их качества. Это, пожалуй, самое существенное требование, выгодно отличающие измерения от остальных методов педагогического контроля. Качество педагогических измерений можно определить как меру соответствия получаемых результатов заранее сформулированным целям. В западной теории педагогических измерений сложились два основных требования – это так называемые надежность и валидность. Основной предмет педагогических измерений – разработка качественных тестов для измерения уровня подготовленности учащихся. В наши дни такие тесты используются не только для измерения уровня подготовленности, но и для проведения рейтинга студентов, мониторинга учебного процесса, для организации адаптивного обучения и адаптивного тестового контроля, дистанционного образования: в общем, тесты используются во всех современных образовательных технологиях. Преимуществом тестовых методов являются их: 1) высокая научная обоснованность самого теста, позволяющая получать объективированные оценки уровня подготовленности испытуемых; 2) технологичность тестовых методов; 3) точность измерений; 4) наличие одинаковых, для всех пользователей, правил проведения педагогического контроля и адекватной интерпретации тестовых результатов; 5) сочетаемость тестовой технологии с другими современными образовательными технологиями. Нередко обоснование качества результатов педагогических исследований требует обращения к внепедагогическим понятиям и критериям - философским, логическим, математико-статистическим. Тесты являются сейчас, по-видимому, наиболее развитой в научном отношении частью методического арсенала педагогики, позволяющей адекватно скреплять теорию с эмпирией, в соответствии с такими известными стандартами качества информации, как критерии надежности и валидности. Наиболее развитые в тестовом отношении страны Нидерланды, США, Англия, Япония, Дания, Израиль, Канада, Австралия. Нет никакой случайности в том, что в этот список попали страны с достаточно высоким уровнем жизни населения. Применение тестов благотворно влияет на качество образования; качество образования связано с качеством управления; качественное управление создает предпосылки для повышения качества жизни населения. Сейчас с помощью тестов там проверяется подготовленность миллионов школьников и студентов, военнослужащих, управленческого персонала.
Полезен зарубежный опыт выпуска общественными ассоциациями десятка специализированных журналов по разработке тестов, таких как Journal of Educational Measurement, Educational and Psychological Measurement, Psychometrika и т.п., а также опыт подготовки сотен монографий, учебных пособий, диссертаций по тестам и педагогическим измерениям
Наиболее подходящим для измерения латентных качеств является тест. В западной и российской литературе уделяется мало внимания определению теста. Педагогический тест - система заданий возрастающей трудности, специфической формы, позволяющая эффективно измерить уровень и оценить структуру результатов подготовленности испытуемых. Это определение гомогенного теста,т.е. измеряющего только одно интересующее качество. Из данного определения вытекает, что тест, как система, обладает целостностью, эффективностью (включающей в себя критерии качества результатов измерений), составом и структурой. Возникла необходимость нового истолкования сущности теста. Во-первых, надо уходить от преднамеренного пересечения тестовой лексики с традиционной педагогической лексикой экзаменов и вопросов. Во-вторых, в определении теста на русском языке надо специально подчеркивать, что тест не только метод, но и результаты измерения. Отсюда и фактическая секретность подлинных данных ЕГЭ – верный признак движения государства к закрытости. Свойства метода могут переноситься на свойства результатов, а могут, в силу множества источников погрешностей, и не переноситься. К этому необходимо добавить ещё один элемент: педагогический тест – это метод, результаты, и интерпретация результатов. Такое истолкование сути теста позволяет по-новому взглянуть на перспективы развития тестовой культуры, особенно в связи с попытками создания так называемых «критериально-ориентированных тестов». На самом деле вопрос лучше ставить не о «тестах», а об интерпретации данных тестирования в зависимости от того или иного критерия. Тест может быть один, а интерпретации результатов – разные. Исходя из этого была поставлена цель: оценить качество тестовых заданий на основе статистических методов анализа данных и методов IRT. Предметомисследования являются способы и методы диагностики тестовых заданий по результатам тестирования. Задачи работы: 1. Изучить предметную область по оценке качества тестов; 2. На основе классических методов и однопараметрической модели Раша выполнить исследование результатов тестирования; 3. По итогам исследования провести анализ и интерпретацию результатов Базой исследования послужили результаты тестирования студентов ТюмГУ ИМиКН 4 курса (группы 323, 324, 325-1, 325-2, 325-3, 325-4; всего 124 человека), полученные в марте – апреле 2006г. Глава 1. Модели и методы оценки качества тестовых заданий. Выделяют пять общих требований к тестам контроля знаний [3]: - валидность; - определенность (общепонятность); - простота; - однозначность; - надежность. Валидность теста – комплексная характеристика теста, отражающая его способность измерять именно то, для чего он предназначен. Характеризует возможности генеральной совокупности заданий в тестируемой области знаний несмещенно оценить объект измерений теста. Различают содержательную и критериальную (функциональную) валидность: первая – это соответствие теста содержанию контролируемого учебного материала, вторая – соответствие теста оцениваемому уровню деятельности. Выполнение требования определенности (общедоступности) теста необходимо не только для понимания каждым учеником того, что он должен выполнить, но и для исключения правильных ответов, отличающихся от эталона. Требование простоты теста означает, что тест должен иметь все задания примерно одного уровня сложности, т.е. он не должен быть комплексным и состоять из заданий разного уровня сложности. Однозначность определяют как одинаковость оценки качества теста разными экспертами. Для выполнения этого требования тест должен иметь эталон. Требование надежности заключается в обеспечении устойчивости результатов многократного тестирования одного и того же испытуемого. При реализации систем тестирования необходимо придерживаться именно этих пяти требований к создаваемым тестам. Однако реализация описанных выше условий к тестам еще не означает того, что созданный комплекс будет отвечать всем требованиям, предъявляемым к системам тестирования Одним из ключевых моментов диагностики знаний является необходимость не только оценивать уровень знаний испытуемых, но и анализировать качество диагностических материалов, что необходимо для адекватной оценки знаний. Понятие качества диагностических материалов включает в себя оценку их надежности и валидности, являющихся одними из важнейших характеристик педагогических измерений. Надежность теста – это характеристика методики, отражающая точность измерения и устойчивость результатов к воздействию посторонних случайных факторов. Надежность теста связана с понятием стандартной ошибки, чем выше надежность, тем меньше стандартная ошибка измерений. Существует несколько различных понятий надежности диагностического теста и соответственно методов ее определения : - надежность параллельных форм; - ретестовая надежность; - надежность расщепленных частей теста. Надежность параллельных форм – характеристика, получаемая с помощью параллельных форм (вариантов) теста, проведенных на одной и той же выборке испытуемых. Корреляция результатов обоих тестов является показателем надежности. В реальной ситуации доказать параллельность двух форм (вариантов) теста или провести повторное тестирование с соблюдением одинаковых условий не представляется возможным. Ретестовую надежность определяют при повторном использовании того же самого теста спустя некоторый промежуток времени. Однако, любой испытуемый, проходя тестирование, всегда получает дополнительные знания, анализируя свои результаты. Поэтому, ретестовая надежность так же не может считаться абсолютно объективным показателем. Надежность расщепленных частей теста исследуется путем анализа устойчивости результатов отдельных совокупностей тестовых заданий при однократном тестировании. По-сути, данный способ является некоторой модификацией способа исследования надежности параллельных форм, однако он более технологичен и поэтому получил более широкое распространение. 1.1. Классические методы оценки качества тестовых заданий. Согласно классической теории тестов [8] наблюдаемый тестовый балл X можно представить в виде суммы двух компонент: истинного Т и Е – связанного с угадыванием, неправильным пониманием смысла задания и т.д. Х = Т + Е Дисперсия наблюдаемых тестовых баллов состоит из дисперсии истинной компоненты и дисперсии ошибочной компоненты :
Коэффициент надежности теста К определяется следующим соотношением: Если данное отношение близко к 0, то интерпретация результатов является ненадежной, если коэффициент близок к 1, то он является надежным. Следует отметить, что коэффициент надежности характеризует не только сам тест, но является и критерием оценки выборки испытуемых.
Для вычисления надежности теста используется коэффициент корреляции Пирсона между результатами двух параллельных тестов, что можно продемонстрировать, используя данные представленные в таблице 1. Таблица 1.
№ cтудента (i)
Индивидуальный балл по тесту X
Индивидуальный балл по тесту Y

X2
Y2
1
X1
Y1
X1 Y1
X12
Y12
2
X2
Y2
X2 Y2
X22
Y22
…
…
….
….
….
….
N
Xn
Yn
Xn Yn
Xn2
Yn2
∑
∑Xi
∑Yi
∑XiYi
∑ Xi2
∑ Yi2 При оценке надежности теста по двум половинам расщепленного теста используется формула Спирмена-Брауна [10]: , где К - надежность всего теста, а - надежность, вычисленная по двум половинам теста, причем вычисляется как коэффициент корреляции Пирсона. При этом необходимо подсчитывать баллы испытуемых отдельно для четных и для нечетных заданий теста (табл. 2). Таблица 2. № (i)
Индивидуальный балл по нечетным
заданиям теста
Индивидуальный
балл по четным
заданиям теста

X2 Y2 1
X1
Y1
X1Y1
X12 Y12 2
X2
Y2
X2Y2
X22 Y22 …
…
….
….
…. …. N
Xn
Yn
Xn Yn
Xn2 Yn2 ∑
∑Xi
∑Yi
∑ XiYi
∑ Xi2
∑ Yi2 Однако наибольшее распространение на практике получило применение для расчета надежности теста так называемой формулы KR-20 [17]: , где К- коэффициент надежности, m- число заданий в тесте, pj - доля правильных ответов на j задание, qj - доля неправильных ответов на j задание. Дисперсия индивидуальных баллов N студентов вычисляется по формуле: . Если величина коэффициента надежности К составляет от 0,90 до 0,99, то тест имеет отличную оценку надежности, если от 0,80 до 0,89 то хорошую, от 0,70 до 0,79 – удовлетворительную и менее 0,69 - неудовлетворительную надежность. По формуле KR20 оценивается надежность таких тестов как SAT (K = 0,91) и TOEFL (К = 0,93). По данным для текущего контроля знаний необходимо, чтобы тест имел надежность не менее 0,80, а для итоговой аттестации более 0,90. При оценке качества заданий важно понять, существует ли тенденция, когда одни и те же ученики добиваются успеха в какой-либо паре заданий теста? Либо, наоборот, такой тенденции, указывающей на связь результатов, нет, и состав учеников, добивающихся успеха, полностью меняется при переходе от одного задания к другому в тесте. Для ответа на поставленные вопросы необходимо провести анализ данных, собрав их в таблицу.
Обычно ответ на вопрос о существовании связи между двумя наборами данных получают с помощью корреляции. Корреляция в широком смысле означает связь между процессами. Формула коэффициента корреляции [1]:
где - доля испытуемых, выполнивших правильно оба задания теста, т.е. доля тех, кто получил 1 по обоим заданиям; -доля испытуемых, правильно выполнивших j-ое задание, а - т.е. доля испытуемых, неверно выполнивших или невыполнивших j-ое тестовое задание. Для тематических тестов высокая корреляция между заданиями неизбежна, т.к. задания отражают слабо варьирующее исходное содержание, что вполне оправдано назначением теста. В итоговых тестах высокой корреляции стараются избежать, поскольку вряд ли имеет смысл включать в итоговый тест несколько заданий, содержащих одинаковые содержательные элементы. В тестах такого типа значения коэффициента корреляции варьируются в интервале (0; 0,3) и каждое задание привносит свой специфический вклад в общее содержание теста. При наличии больших выборочных совокупностей и так называемого нормального распределения баллов по всему тесту теоретически предпочтительнее рассчитывать другой вариант коэффициента корреляции Пирсона, который называется, point - biserial коэффициентом корреляции [3] , где приняты следующие обозначения: - среднее значение индивидуальных баллов, выполнивших верно j-ое задание теста; - среднее значение индивидуальных баллов испытуемых, выполнивших неверно j-ое задание теста; - стандартное отклонение по множеству значений индивидуальных баллов; - число испытуемых, выполнивших верно j-ое задание теста; - число испытуемых, выполнивших неверно j-ое задание теста; N – общее число испытуемых. Стандартное отклонение характеризует меры изменчивости распределения результатов и выражается формулой: , где Dx – дисперсия. Подсчёт дисперсии основан на вычислении отклонений каждого показателя от среднего арифметического в распределении. Дисперсия играет важную роль в оценке качества тестов. Слабая вариация результатов испытуемых указывает на низкое качество теста. Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации испытуемых по уровню подготовки в тестируемой группе. Излишне высокая дисперсия требует переработки теста. Превышение разумных пределов величины дисперсии приводит к искажению вида распределения, которое начинает существенно отличаться от планируемой теоретически нормальной кривой. Стандартное отклонение является полезной мерой вариации для случая нормального распределения баллов испытуемых, так как заранее приблизительно известно, какой процент данных лежит внутри одного, двух и трёх стандартных отклонений, откладываемых от центра распределения. Точечно-бисериальная корреляция является значимой, если: . При практических вычислениях считается приемлемым, если коэффициент точечно-бисериальной корреляции имеет значение больше или равное 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно для работы в соответствии с общей целью создания теста. Если эта цель – дифференциация учеников по уровню подготовки, то валидные задания должны чётко отделять хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Чем ближе точечно-бисериальный коэффициент корреляции к 1, тем эффективнее это задание позволяет дифференцировать участников по уровню их подготовленности. Решающую роль в оценке валидности играет разность , находящаяся в числителе дроби формулы. Чем выше значение этой разницы, тем лучше работает задание на общую цель дифференциации испытуемых, выполняющих тест. Значения, близкие к 0, указывают на низкую дифференцирующую способность теста. В том случае, когда в разности доминирует вклад , а не , то задание следует просто удалить из теста. В нём побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Таким образом, подлежат выбросу все задания, у которых Для увеличения надежности тестов можно использовать способы, рекомендованные в работах В.С.Аванесова, М.Б.Челышковой и других исследователей. Сущность этих способов заключается в следующем: - необходимо провести анализ каждого тестового задания на соответствие его формы и содержания основам тестовой теории. - необходимо по возможности стремится к большому числу заданий в тесте, так как это способствует повышению качества теста и его надежности. - желательно удалить из теста задания, плохо различающие подготовленных и неподготовленных учащихся, плохо сформулированные и вводящие в заблуждение тестируемых. - предпочтительнее использовать в тесте задания в закрытой форме, что существенно уменьшает влияние случайного угадывания. Напомним, что под валидностью теста подразумевается его способность измерять именно те характеристики для измерения которых он был разработан. На практике различают несколько видов валидности: - содержательную валидность; - критериальную валидность; - конструктную валидность. Содержательной валидностью должны обладать все диагностические материалы, применяемые для контроля знаний. Тест обладает содержательной валидностью, если в нем адекватно отображены все основные аспекты исследуемой области содержания. Оценка содержательной валидности осуществляется на основе анализа конгруэнтности и технологических качеств теста. Иногда для оценки содержательной валидности используют метод “дублирования”. Сущность метода заключается в том, что двум группам разработчиков тестов выдаются одинаковые планы области содержания и целей тестирования, одинаковые спецификации тестовых заданий и т.д. Проверка эквивалентности тестов и их содержательной валидности осуществляется путем сравнения результатов тестирования на одной и той же выборке испытуемых. Близость полученных результатов свидетельствует о хорошей содержательной валидности. Критериальная валидность – это степень соответствия между результатами тестирования и внешними критериями. Примером критериальной валидности может, например, служить корреляция результатов вступительных экзаменов с успехами студентов на первом курсе, т.е. результаты вступительного тестирования являются валидными, если коэффициент их корреляции с успехами студентов высок. Критериальная валидность подразделяется на:
- конкурентную (текущую) валидность; - прогностическую валидность. Текущая валидность оценивается по корреляции результатов данного теста с результатами других тестов или других внешних критериев. Прогностическая валидность теста определяется как корреляция между результатами тестирования и некоторым внешним критерием, например будущими успехами испытуемых в профессиональной деятельности.
Конструктная валидность включает в себя все вышеперечисленные виды валидностей. Однако для ее определения необходимо наиболее точно описать конструкт (переменную), для измерения которой предназначен тест. Для этого необходимо: - перечислить гипотезы, касающиеся данной переменной, с которыми должен коррелировать данный тест; - перечислить гипотезы, касающиеся данной переменной, с которыми не должен коррелировать данный тест; - выявить группы испытуемых, которые должны показывать низкие (или высокие) результаты при тестировании. Оценка валидности теста является более сложной задачей, чем оценка надежности, поскольку основывается не только на работе с опытными данными, но и теоретическими концепциями построения тестов. При оценке валидности необходимо учитывать две основные характеристики. Первая – конгруэнтность тестового задания элементу содержания (оценка того, в какой степени тестовое задание измеряет элемент или аспект содержания, включенный в спецификацию). Вторая - технологическое качество теста, в том числе и его форма. Конгруэнтность тестовых заданий. Для оценки данного параметра используется следующая процедура: 1) эксперты по содержанию данной дисциплины присваивают каждому тестовому заданию рейтинг, учитывающий степень соответствия (например, от 1- неудовлетворительная конгруэнтность до 5 - отличная), 2) проводится статистический анализ рейтингов и на его основе выдается заключение о конгруэнтности теста. Другой метод оценки конгруэнтности тестовых заданий элементам содержания заключается в том, что экспертам выдается два списка – один с заданиями, второй с элементами содержания и целями тестирования. Задачей эксперта является установления соответствия задания элементу содержания из списка. Затем составляется таблица соответствия "задание-элемент содержания" и на основе исследования распределения на независимость данных в этой таблице оценивается степень конгруэнтности. Оценка технологического качества тестовых заданий производится на основании экспертного заключения специалистов и в процессе непосредственного использования данных тестовых заданий. Процедура тестирования предполагает анализ ответов на последовательность тестовых заданий определенной трудности. Следует отметить, что тестированиевозможно, если заранее определена трудность тестовых заданий, что предполагает их предварительную апробацию и обработку результатов с использованием методов дисперсионного анализа и теории тестирования для определения надежности, валидности, дифференцирующей способности и трудности. Кроме того, адаптивное тестирование можно проводить в случае, когда искусственно задан некоторый уровень сложности тестового задания Р, равный числу операций, которые надо осуществить для его правильного выполнения. Например, Р может быть равен числу формул необходимых для решения задачи, предлагаемой испытуемому системой тестирования. В случае тестового контроля можно поступать следующим образом. Если ответ правильный, то предполагается, что уровень подготовки студента выше сложности предъявленной задачи, и он способен решать задачи заданной трудности, в противном случае — неспособен. В данном случае можно использовать следующий подход. Таким образом, функция «уровня знаний» является преобразованием функции «трудности» задачи через «способность решения задач» определенной «трудности». Исходный тест по предложенному модулю может быть предназначен для предварительного тестирования групп учащихся с целью приближенного определения уровня обученности группы по соответствующему модулю курса. Целесообразность контроля определяется оптимизацией процесса тестирования, так как нет необходимости давать легкие задания знающему студенту и сложные задания не достаточно хорошо подготовленному. Использование заданий, соответствующих уровню подготовки позволяет уменьшить время тестирования и повысить точность измерения уровня знаний. В настоящее время выделяют три варианта контроля [2]: - пирамидальное тестирование; - flexi level-тестирование; - stradaptive тестирование. При пирамидальном тестировании на первом шаге всем испытуемым выдаются задания одинакового среднего уровня трудности, а затем в зависимости от ответов либо более трудное, либо более простое путем деления шкалы заданий пополам. Например, если банк заданий состоит из 21 упорядоченного по трудности задания, то тестирование начинается с 11 задания, а затем выдается либо шестое, либо шестнадцатое и т.д. При flexi level-тестировании контроль начинается с любого уровня трудности заданий, а при stradaptive тестировании каждое последующее задание отличается от предыдущего на один шаг по трудности. В статистической обработке ответов при аттестировании применяют IRT теорию, которая использует для моделирования вероятностей правильных ответов логистическую кривую. Проводя сравнительный анализ логистического и нормального распределений можно показать, что логистическое распределение очень хорошо аппроксимируется нормальным. В свою очередь нормальный закон является предельным случаем биномиального распределения. Этот факт можно формально интерпретировать так, что «уровень знаний» является долей решенных задач, так как число решенных из общего числа задач при заданной вероятности решения подчинено биномиальному распределению. 1.2. IRT – теория моделирования и параметризации педагогических тестов. Другая математическая модель контроля исходит из определения уровня обученности учащихся в зависимости от трудности заданий. Теоретической основой в данном случае является теория Item Response Theory (IRT) в сочетании с дидактическим принципом индивидуализации обучения. Целям дифференциации обучаемых служит построение индивидуальных кривых испытуемых по двухпараметрической модели A.Birmbaum. Принципиальное отличие Item Response Theory от рассматриваемой теории Раша заключается в том, что в данном случае каждое тестовое задание рассматривается, как самостоятельная структурная единица, параметры которой не зависят от параметров других заданий. В основе всех моделей Item Response Theory лежат так называемые функции успеха, имеющие заранее известный вид и определяющие зависимость верного решения задания от уровня подготовленности испытуемого. Для оценки параметров моделей Item Response Theory используют специальные итерационные методы, что является достаточно сложной задачей, однако эти модели имеют по сравнению с моделью Раша ряд преимуществ. В частности, для нанесения результатов на единую шкалу по различным вариантам теста нет необходимости вводить предположения об их параллельности. Следует отметить, что дисперсия ошибки измерения уровня подготовленности в модели Раша несколько больше, чем в Item Response Theory.
Одной из основных и наиболее применимых моделей Item Response Theory является так называемая двухпараметрическая модель Бирнбаума. Сущность этой теории заключается в следующем. Пусть параметр отражает уровень подготовленности i-го участника испытаний, а параметры и некоторые параметры j-го тестового задания (и - любые числа, а dj - только положительные). Согласно модели Бирнбаума вероятность Pij успешного выполнения j-го задания i-м участником определяется следующей формулой:
. Данное выражение показывает, что вероятность успеха Pi зависит только от dj и поэтому модель Бирнбаума, получила название двухпараметрической. Вероятность успеха Pij как функция от при фиксированных значениях = и называется характеристической функцией j - го задания. На рисунке 1 представлен вид характеристической кривой с параметрами = 0,3 и dj = 1,2. Исследование характеристических функций показывает, что: и , т.е. с уменьшением уровня подготовленности участника вероятность верного решения задания уменьшается до 0, а при увеличении уровня подготовленности увеличивается до 1. Рис.1. Характеристическая кривая задания с уровнем трудности = 0,3 и различающей (дифференцирующей) способностью dj = 1,2. При увеличении параметра , характеризующего трудность задания, вероятность успеха для одного и того же уровня подготовленности уменьшается. При небольших значениях параметра d0 характеристическая кривая является пологой, следовательно, для испытуемых с уровнем подготовленности и для участников тестирования с вероятности верного решения данного задания приблизительно равны. Если значение параметра d0 велико, то вероятности успеха будут существенно различаться, поэтому параметр dj получил название коэффициента дискриминации. Этот коэффициент показывает насколько данное задание, хорошо различает участников тестирования с высоким, и низким уровнем подготовленности. Однопараметрическая модель Раша. Статистическая обработка результатов тестирования на основе модели Раша обладает важными достоинствами, из которых следует отметить следующие: 1. Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых получена. Пропуск данных для некоторых комбинаций не является критическим; 2. Модель Раша характеризуется наименьшим числом параметров: один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания; 3. Модель опирается на понятия «трудность задания» и «уровень подготовленности»; 4. Благодаря простой структуре модели существуют удобные вычислительные процедуры для проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа. Получаемые с помощью данной модели оценки, в силу относительной независимости от конкретного подбора того или иного задания, приобретают характер достаточно объективированных результатов, что также положительно отражается на качестве оценок, используемых в педагогическом контроле. Эта идея Раша превратилась в новое для науки положение о т.н. специфической объективности, как основе для получения справедливых оценок, независимых ни от конкретного набора заданий, ни от подбора групп испытуемых. Не случайно измерения по Г.Рашу в западной литературе называют model based measurement. Пусть тест состоит из k различных заданий бинарного типа, (испытуемый получает 1 балл, если ответил правильно и 0 - при неверном ответе) и его выполняют n студентов. В результате получается матрица ответов An,k состоящая из n строк (i) и k столбцов (j). An,k = {aij} Число bi равное сумме баллов в i - й строке называется первичным баллом i - го испытуемого (оно равно числу его правильных ответов): При необходимости первичный балл можно выразить в процентах (или долях) следующим образом . Уровни подготовленности участников A и B обозначим через Sa и Sb, а трудность заданий через t (на самом деле все задания имеют разный уровень трудности tk). В модели Раша доказывается, что: (1). , где и - вероятность выполнения задания уровня трудности t соответственно участниками A и B, и - вероятности невыполнения задания уровня трудности t соответственно участниками A и B. Из общих соображений выражение (1) должно быть верным для любого уровня трудности заданий и любой пары участников тестирования. Пусть, какое либо задание имеет трудность t = 1 и необходимо сравнить трудности двух заданий. В модели Раша уровень трудности определяется, как отношение вероятности () того, что некоторый стандартный участник испытания с единичным уровнем подготовки (S = 1) не выполнит данное задание к вероятности () его выполнения: . Единичный уровень подготовки и единичная трудность задания в модели Раша связаны между собой. Используя выражение: , и предположив, что уровень подготовленности именно участника В является единичным () получим следующее выражение:
(2) Уравнение (2) связывает уровень трудности некоторого задания и уровень подготовленности некоторого участника с вероятностью правильного выполнения задания и должно быть справедливо для заданий любого уровня трудности. Учитывая общность полученного уравнения (2) можно показать, что вероятность Р(S,t), того, что участник с уровнем подготовки S правильно выполнит задание трудности t, выражается следующей формулой:
(3) Вероятность Р(S,t) получила название функции успеха. Как видно из выражения (3) функция успеха зависит только от отношения t к S, поэтому модель Раша называется однопараметрической и использует шкалу отношений. Вводя новые переменные: , , , Выражение (3) можно переписать в виде: (4) Формула (4) является основным уравнением однопараметрической логистической модели Раша, единица измерения δ и θ называется логитом. При одном логите (δ0 = 1 и θ0 = 1) вероятность успеха , т.е. вероятность выполнения стандартного задания стандартным участником должна быть равна 0,5 (рис.2). Модель Раша позволяет сделать Рис.2. Характеристическая кривая трудности задания вывод: чем выше уровень подготовки участника, тем больше вероятность выполнения задания любого уровня трудности. Параметры δ и θ называют латентными параметрами, т.к. они не измеряются непосредственно в процессе тестирования. Разрешающая способность теста является одним из ключевых понятий современной теории тестирования, поскольку разделение испытуемых по рейтингу или по группам, при аттестации, является основной задачей любого тестирования. В связи с этим вводится понятие коэффициента дискриминации (или различающей способности), который может характеризовать как весь тест в целом, так и отдельные тестовые задания, и рассчитывается на основании полученных результатов. Основное влияние при вычислении разрешающей способности теста оказывает число заданий – k, поскольку число заданий, как правило, меньше числа участников – n. При заданном конечном числе заданий – k, первичные баллы принимают конечное число значений 0,1, 2, 3, …… k с шагом ∆b = 1. Общепринято, что разрешающей способностью теста (ξ) называется длина промежутка ∆θ в логитах на латентной шкале уровня подготовленности, который соответствует шагу ∆b = 1, т.е: Если , то тест не в состоянии различить θ1 и θ2 . В реальной жизни величину разрешающей способности теста (ξ) желательно знать заранее при составлении теста, что можно сделать используя следующий метод. Продифференцируем по (): , тогда . Разрешающая способность теста в окрестности балла будет тем больше, чем больше информации содержится в i - ой строке матрицы ответов. Минимальное значение ξ (ξmin) ξmin = 4/K достигается при для любого j = 1, 2, 3, …….k. Поскольку максимального значения коэффициента разрешающей способности ξ не существует, то практически ограничиваются величиной ξ = 11/k , соответствующего маловероятному случаю для любого j = 1, 2, 3, …….k. На практике используют значения ξ удовлетворяющие неравенству: 4/k можно воспользоваться формулой: . Соотношение позволяет установить взаимосвязь между соответствующими среднеквадратичными ошибками и : Таким образом, для среднеквадратичной ошибки оценки уровня подготовленности i- участника, можно получить, что логит ( – первичный балл, набранный участником), для среднеквадратичной ошибки оценки уровня сложности задания логит (– число участников успешно выполнивших данное j – ое задание). Для более строгих расчетов , вероятности и вычисляют по модели Раша, используют следующее выражение: . В диапазоне от 0 до 1 коэффициент разрешающей способности имеет следующую интерпретацию: - больше 0,40 (задание является эффективным); - от 0,30 до 0,39 (задание является удовлетворительным); - от 0,20 до 0,29 (задание требует переработки); - менее 0,20 (задание необходимо полностью заменить). Для исследования показателей качества тестовых заданий необходима достаточно большая выборка испытуемых. В реальных условиях эта задача бывает трудно реализуемой, что существенно осложняет работу по разработке качественных заданий. Постановка задачи: по результатам отбора тестируемых выполнить анализ качества тестовых материалов ( информационная карта тестовых материалов в приложении 3) на основе классических методов и метода Раша выполнить компьютерную обработку результатов, их анализ и интерпретацию. Глава 2. Математико–статистическая обработка эмпирических данных. На основе поставленной задачи было проведено практическое исследование диагностических материалов, предложенныхстудентам 4 курса специальностей МОиАИС и ПИвЭ по дисциплине «Исследование операций».
Для оценки качества атрибутов тестового задания использовался метод планирования эксперимента. Результаты тестирования представлены в таблицах по групповым принадлежностям в приложении 1. Каждый тестируемый получал 1 балл за верно выполненное задание и 0 – в противном случае. Из этих результатов была сформирована матрица, состоящая из 8 столбцов (количество вопросов в тесте) и 124 строк (число участников тестирования).
На первом этапе исследования была сформирована матрица по результатам тестирования, проведенного в марте – апреле 2006 г. со студентами 4 курса. Все студенты учатся в 5 разных группах и имеют разный уровень подготовки, поэтому результаты неоднозначны по своей групповой принадлежности. Матрица данных сформирована в текстовом документе и является общей для обоих методов. В матрице тестовых результатов удаляются все строки и столбцы, состоящие только из 0 и 1. Это объясняется тем, что: - если строка состоит только из 0, то, значит, этот студент не ответил ни на один вопрос правильно, значит, этот тест сложен для него; - если строка состоит из 1, то – тест слишком легок для этого студента; - если столбец состоит из 0, то этот вопрос слишком сложен для испытуемых и его следует исключить из теста с последующей доработкой или полной заменой; - если столбец состоит только из 1, то этот вопрос слишком прост и не сможет оценить уровень подготовки испытуемых. Для вновь сформированной матрицы применяем один из методов. 2.1. Однопараметрическая модель Раша. Рассмотрим принцип однопараметрической модели Раша на примере одной группы: 1 2 3 4 5 6 7 8 pi qi ln(pi/ qi) 1 0 0 1 1 1 0 0 0 3 5 -0,51 2 0 0 1 0 1 0 0 0 2 6 -1,09 3 1 1 1 1 1 1 1 0 7 1 1,946 4 1 1 1 1 1 1 0 0 6 2 1,098 5 0 1 1 0 0 0 1 0 3 5 -0,51 6 0 1 1 0 0 0 0 0 2 6 -1,098 7 0 0 1 0 1 0 0 0 2 6 -1,098 8 0 0 1 0 1 0 0 0 2 6 -1,098 9 0 1 1 0 1 0 1 0 4 4 0 10 1 1 1 1 0 0 1 0 5 3 0,51 11 0 1 0 0 1 0 0 0 2 6 -1,098 12 0 0 1 1 1 0 0 0 3 3 -0,51 13 0 1 1 0 0 0 1 1 4 4 0 14 0 0 1 0 0 0 1 0 2 6 -1,098 15 0 1 0 1 0 1 0 0 3 5 -0,51 16 0 0 1 1 0 0 1 0 3 5 -0,51 pj 3 9 14 7 9 3 7 1 qj 13 7 2 9 7 13 9 15 ln(qj/pj) 1,466 -0,25 -1,94 0,251 -0,25 1,466 0,251 2,708 0,140 0,475 0,832 0,354 0,475 0,140 0,354 0,044 ln (qj /pj) называют логит трудности задания ( δ ). Симметрично введена логарифмическая оценка уровня знаний, так называемый, логит уровня знаний, равный ln (pi /qi) ( θ ). Для нашего случая был взят средний логит уровня знаний (ln (pi / qi) = - 0,3494). Воспользовавшись основной формулой метода Раша и получив соответствующие значения для каждого задания, можно сделать вывод: для данной группы испытуемых оказались сложными задания с номерами 8, 1, 6.
Для общей матрицы результатов (124 человека) значения для каждого задания распределились следующим образом: № вопроса 1 2 3 4 5 6 7 8 0,5180 0,6716 0,8601 0,6388 0,8388 0,5448 0,7578 0,2851 Исходя из этих данных можно сделать вывод, что следует уделить внимание заданию под номером 8 (слишком малая вероятность выполнения этого задания). Задания с номерами 3, 5 напротив обладают большой вероятностью их выполнения. В программе реализация метода выглядит так: В верхней таблице представлена исследуемая матрица результатов, в нижней – рассчитанные по модели Раша вероятностные коэффициенты. 2.2. Точечно-бисериальный коэффициент корреляции. Второй метод основан на подсчете точечно-бисериалного коэффициента корреляции, который позволяет определить валидность тестовых заданий по формуле: Для подсчета стандартного отклонения необходимо найти дисперсию: , где среднее значение , а - индивидуальный балл каждого испытуемого из N числа участников. Стандартное отклонение тогда выразится, как: . Для нашего случая значения принимают вид: Для матрицы результатов коэффициенты точечно–бисериальной корреляции представлены в таблице: вопрос 1 2 3 4 5 6 7 8 0,56 0,52 0,25 0,35 0,32 0,44 0,38 0,40 Исходя из этих данных, можно сделать вывод: следует пересмотреть задания под номерами 3, 4, 5. В целом задание можно считать валидным, когда значение точечно-бисериального коэффициента приблизительно равно 0,5. В программе, соответсвенно, этот метод реализован аналогично методу Раша, т.е. на форме представлены загружаемая матрица результатов тестирования и таблица с рассчитанными коэффициентами точечно-бисериальной корреляции: Управление и общий порядок работы с формой не изменился. 2.3. Коэффициент корреляции. Следующим классическим методом используется метод подсчета коэффициента корреляции. Вычисляются показатели связи между результатами по отдельным заданиям теста. Корреляция в широком смысле означает связь между процессами. Формула коэффициент корреляции: где - доля испытуемых, выполнивших правильно оба задания теста, т.е. доля тех, кто получил 1 по обоим заданиям; - доля испытуемых, правильно выполнивших j-ое задание, а - доля испытуемых, неверно выполнивших или невыполнивших j-ое тестовое задание. Результаты подсчета помещены в таблице:
Номера заданий.
1
2
3
4
5
6
7
8 Номера заданий.
1
1,00
0,41
0,12
0,10
0,12
0,25
0,09
0,25
2
0,41
1,00
0,06
0,13
0,02
0,16
0,10
0,13
3
0,12
0,06
1,00
-0,05
0,16
-0,06
0,11
-0,06
4
0,10
0,13
-0,05
1,00
-0,01
0,02
0,12
0,13
5
0,12
0,02
0,16
-0,01
1,00
0,19
-0,09
0,13
6
0,25
0,16
-0,06
0,02
0,19
1,00
0,09
0,21
7
0,09
0,10
0,11
0,12
-0,09
0,09
1,00
0,18
8
0,25
0,13
-0,06
0,13
0,13
0,21
0,18
1,00
Сумма
1,97
1,84
1,09
1,19
1,33
1,55
1,38
1,55 Анализ значений коэффициента корреляции позволяет выделить 3,4,5 задания. По данным таблицы, третье задание отрицательно коррелирует с 4, 6, 8 заданиями теста. О том, что «виновато третье», а не другие задания теста, свидетельствует анализ значений коэффициента корреляции в столбцах с номерами 4, 6 и 8. В них просматривается только один минус на месте, соответствующем третьему заданию теста, которое, в свою очередь, отрицательно коррелирует с тремя заданиями теста. Аналогичная ситуация наблюдается в столбце, соответствующем 4, 5 заданиям теста.
Отрицательные значения коэффициента корреляции указывают на определенный просчёт разработчиков в содержании этих заданий теста. Скорее всего, отрицательные значения коэффициента корреляции указывают на отсутствие связи их содержания с содержанием других заданий теста. В программе работа по запуску этого метода не отличается от предыдущих. Единственным отличием является то, что на форме не выводится загружаемая матрица результатов. Это сделать для того, чтобы не перегружать форму, ведь для нас важен результат, а не содержимое. В итоговых тестах высокой корреляции стараются избежать, поскольку вряд ли имеет смысл: включать в итоговый тест несколько заданий, содержащих одинаковые содержательные элементы. В тестах такого типа значения коэффициента корреляции варьируются в интервале (0; 0,3) и каждое задание привносит свой специфический вклад в общее содержание теста. В результате проведенного исследования можно сделать выводы, что в используемом варианте теста несколько заданий, в частности 3 и 5 не соответствуют по качеству для проверки уровня знаний и их следует пересмотреть. Но основной вывод по работе заключается в следующем факте: проводя исследовательские расчеты классическими методами и одним из методов IRT, были получены слегка разрозненные результаты. Так, например, метод Раша выявил 8 задание как слишком сложное для данных групп испытуемых. Классические методы этого факта не заметили. Можно заключить, что используемые методы хорошо использовать не по отдельности, а в совокупности. Это позволит сделать более объективную оценку. Заключение. Таким образом, при выполнении дипломной работы была изучена предметная область, связанная с проблемой оценки качества тестовых материалов. Ведь понятие качества включает в себя оценку надежности и валидности тестовых материалов, являющихся одними из важнейших характеристик педагогических измерений. Были рассмотрены классические методы и методы IRT, на основе экспериментальных данных был проведен сравнительный анализ результативности методов и тестовых заданий. В частности, применялись методы расчета точечно–бисериального коэффициента корреляции, корреляции Пирсона и рассмотрена однопараметрическая модель Раша. На основе изученных методов была создана программа, позволяющая на основе введенных данных произвести расчет показателей качества теста. В ней были использованы вышеперечисленные методы. На данный момент программный продукт находится на этапе тестирования и отладки. Список литературы: 1. Алексеенко А. С.Математическая обработка результатов тестовых проверок в соответствии с классической теорией тестов.// Тезисы доклада семинара «методология и концепция компьютерного тестирования», - Москва, 2003. 2.Аванесов В.С. "Композиция тестовых заданий".- М., 1998, С. 156-207. 3. Аванесов В.С. Основы научной организации педагогического контроля в высшей школе, Учебное пособие.- М.: Исследовательский центр, 1989, - 167 с. 4. Березин Н.В. Выбор дистракторов в заданиях в закрытой форме. Анализ и моделирование в рамках IRT. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России», - Москва, 2002, С. 229-230. 5. Власова Е.А. Модель оценивания результатов тестирования по дробной шкале. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С. 231-232. 6. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 1997. - 480 с. 7. Елисеев И.Н., Елисеев И.И., Гладилин А.Н. Программный модуль ANALIZATOR для расчета параметров тестовых заданий с несколькими верными ответами. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, C. 293-234. 8. Кромер В.В. Единое шкалирование разновариантных тестов. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, C. 239-240 9. Люсин Д.В. Основы разработки и применения критериально-ориентированных педагогических тестов.- М.: Исследовательский центр, 1993, - 51 с. 10. Нейман Ю.М. О шкалировании результатов централизованного тестирования в 2001 году. // Вопросы тестирования в образовании, № 1, 2001, С. 94-106. 11.Овчинников В.В. Анализ внутренней валидности тестовых заданий аттестационного тестирования 2002 года. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С. 243-244. 12.Овчинников В.В. Оценивание учебных достижений учащихся при проведении централизованного тестирования. – М.: Из-во Век книги, 2001. - 27 c. 13. Переверзев В.Ю. Критериально - ориентированные педагогические тесты для итоговой аттестации студентов. - М.: Из-во НМЦ СПО Минобразования РФ, 1998. - 152 с. 14. Переверзев В.Ю. Зарубежный опыт массового педагогического тестирования абитуриентов. // Тезисы докладов шестого симпозиума “Квалиметрия человека и образования: методология и практика”, Книга II, Ч.2, -Москва, 1997. - 167 с. 15. Смирнов С.Д. Педагогика и психология высшего образования: От деятельности к личности. Учебное пособие. – М.: Высшая школа, 1995. - 271с. 16. Челышкова М.Б. Теория и практика конструирования педагогических тестов. Учебное пособие. – М.: Логос, 2002. - 432 с. 17. Янченко С.И. Математическая модель оценки результатов тестирования. // Тезисы докладов Всероссийской конференции «Развитие системы тестирования в России». - Москва, 2000, ч. 4, С. 54-56. 18. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, Denmark: Danish Institute for Educational Research, 1978. Приложение 1. Данные по результатам тестирования. Группа 323.
№ вопроса
№ студента 1 2 3 4 5 6 7 8 1 1 0 1 1 1 0 1 0 2 1 1 0 1 1 1 0 1 3 1 1 1 1 0 1 1 1 4 1 1 1 1 1 1 1 0 5 1 1 1 0 1 1 1 1 6 1 0 1 0 1 0 1 0 7 1 1 0 1 0 0 1 0 8 0 1 0 1 0 0 1 0 9 1 1 1 1 1 1 1 1 10 1 1 0 1 1 1 0 1 11 1 1 1 0 0 0 0 0 12 1 1 1 0 1 1 1 1 13 0 1 1 1 1 1 1 1 14 1 1 1 1 1 1 1 1 15 0 1 1 1 1 1 1 0 16 0 0 1 0 1 0 1 0 17 1 1 1 0 1 0 1 1 18 1 0 1 1 1 1 1 0 Метод Раша: № 1 2 3
4 5 6 7 8 Р≈ 0,65 0,63 0,65 0,61 0,65 0,58 0,67 0,53 Дисперсия и стандартное отклонение: Группа 324.
№ вопроса
№ студента 1 2 3 4 5 6 7 8 1 1 1 1 1 1 0 1 1 2 0 0 1 0 0 0 1 0 3 1 1 1 0 1 0 0 0 4 1 1 1 1 1 1 1 1 5 0 1 1 1 0 1 1 0 6 1 1 1 1 1 1 1 1 7 0 0 1 0 1 1 1 0 8 1 1 1 0 1 1 1 1 9 1 1 1 0 1 1 1 0 10 0 1 1 1 1 1 1 0 11 0 1 1 1 0 1 1 0 12 1 1 1 1 1 0 0 1 13 1 1 1 1 1 1 1 0 14 0 1 1 1 1 0 1 1 15 1 1 0 1 1 0 0 0 16 1 1 1 1 1 1 1 1 17 1 1 1 0 1 1 1 1 18 1 1 1 1 1 0 1 0 19 0 1 0 1 0 0 1 0 20 1 1 1 1 1 1 1 0 Метод Раша: № 1 2 3
4 5 6 7 8 Р≈ 0,85 0,97 0,97 0,88 0,92 0,82 0,94 0,68 Дисперсия и стандартное отклонение: Группа 325-1.
№ вопроса
№ студента 1 2 3 4 5 6 7 8 1 1 0 1 0 1 1 1 0 2 1 0 0 0 1 1 1 0 3 0 0 1 1 1 0 0 0 4 1 0 1 1 1 0 1 0 5 1 1 1 0 1 1 1 0 6 0 1 1 1 1 0 0 0 7 0 0 1 0 1 1 1 1 8 0 0 1 0 1 1 0 0 9 0 0 1 1 1 1 1 1 10 0 1 1 0 1 1 1 0 11 0 0 0 0 1 1 1 1 12 0 0 0 1 0 0 1 0 13 1 1 1 1 1 0 1 0 14 0 0 1 1 1 0 1 0 15 0 0 0 1 1 0 1 1 16 0 1 1 1 1 0 1 0 17 1 1 1 1 1 0 1 0 18 1 1 1 0 1 0 1 1 19 1 1 0 1 1 1 1 1 20 0 1 1 0 1 0 1 0 21 1 1 1 1 1 1 1 0 22 0 0 0 0 1 1 0 0 23 1 1 1 1 0 0 1 0 24 0 1 1 1 1 1 1 1 25 1 1 1 1 1 1 1 0 26 0 0 1 1 1 0 0 1 Метод Раша: № 1 2 3
4 5 6 7 8 Р≈ 0,55 0,62 0,85 0,73 0,95 0,62 0,87 0,42 Дисперсия и стандартное отклонение: Группа 325-2.
№ вопроса
№ студента 1 2 3 4 5 6 7 8 1 0 1 1 1 1 1 1 0 2 0 0 1 1 0 0 1 0 3 1 1 1 0 1 1 1 0 4 1 1 1 0 1 0 1 0 5 0 1 0 0 1 1 0 0 6 0 1 1 0 1 1 1 0 7 0 0 1 0 0 1 1 0 8 1 1 1 0 0 0 0 0 9 1 1 1 1 1 1 0 0 10 0 0 0 1 0 0 1 0 11 0 0 1 1 1 0 1 0 12 0 0 1 1 1 0 1 0 13 1 1 1 1 1 1 0 0 14 0 0 1 0 1 0 0 0 15 0 1 1 0 1 0 0 0 16 0 0 1 0 1 1 0 0 17 0 0 1 1 1 0 0 0 18 1 1 1 1 1 1 1 0 19 0 1 1 1 1 0 0 0 20 1 1 1 0 1 1 1 0 21 0 0 0 0 1 0 0 0 22 0 0 0 0 1 1 0 0 Метод Раша: № 1 2 3
4 5 6 7 8 Р≈ 0,27 0,49 0,77 0,40 0,77 0,45 0,45 # Дисперсия и стандартное отклонение: Группа 325-3.
№ вопроса
№ студента 1 2 3 4 5 6 7 8 1 0 0 0 1 1 1 1 1 2 0 1 1 1 1 0 0 0 3 1 1 1 0 1 1 0 0 4 1 0 1 1 0 1 0 0 5 0 0 1 1 1 0 1 1 6 1 1 0 0 0 0 1 1 7 0 1 1 1 1 0 1 0 8 0 0 0 1 0 1 1 0 9 0 0 1 0 0 0 1 0 10 1 0 1 1 1 0 1 1 11 0 0 1 1 1 0 1 0 12 0 1 1 1 1 0 1 0 13 0 0 1 0 1 1 0 0 14 0 1 1 1 1 0 1 0 15 1 1 1 1 1 1 1 1 16 1 1 1 0 1 0 0 0 17 0 1 1 0 0 0 1 0 18 0 0 1 0 1 0 1 0 19 0 0 1 0 1 1 1 0 20 1 0 1 1 0 1 0 1 21 0 1 0 1 1 1 1 0 22 0 0 1 0 1 0 1 0 Метод Раша: № 1 2 3
4 5 6 7 8 Р≈ 0,28 0,42 0,78 0,55 0,69 0,37 0,69 0,23 Дисперсия и стандартное отклонение: Группа 325-4.
№ вопроса
№ студента 1 2 3 4 5 6 7 8 1 0 0 1 1 1 0 0 0 2 0 0 1 0 1 0 0 0 3 1 1 1 1 1 1 1 0 4 1 1 1 1 1 1 0 0 5 0 1 1 0 0 0 1 0 6 0 1 1 0 0 0 0 0 7 0 0 1 0 1 0 0 0 8 0 0 1 0 1 0 0 0 9 0 1 1 0 1 0 1 0 10 1 1 1 1 0 0 1 0 11 0 1 0 0 1 0 0 0 12 0 0 1 1 1 0 0 0 13 0 1 1 0 0 0 1 1 14 0 0 1 0 0 0 1 0 15 0 1 0 1 0 1 0 0 16 0 0 1 1 0 0 1 0 Метод Раша: № 1 2 3
4 5 6 7 8 Р≈ 0,14 0,48 0,83 0,35 0,48 0,14 0,35 0,05 Дисперсия и стандартное отклонение: Приложение 2. Программная реализация методов. Метод Раша. procedure TForm1.Shag1; var i,j,k:integer; b:boolean; sum_ball,sum_vop:integer; begin for i:=0 to m-2 do begin sum_ball:=0; for j:=0 to n-2 do if(tst[i,j]=1)then inc(sum_ball); if ((sum_ball=0)or(sum_ball=n-1)) then begin showmessage('Студент '+inttostr(i+1)+' не подходит для теста'); for k:=i+1 to m-1 do for j:=0 to n-1 do tst[k-1,j]:=tst[k,j]; for j:=0 to n-1 do tst[m-1,j] :=0; dec(m); end; end; ////////// for j:=0 to n-2 do begin sum_vop:=0; for i:=0 to m-2 do if(tst[i,j]=1)then inc(sum_vop); if((sum_vop=0)or(sum_vop=m-1))then begin showmessage('Задание '+inttostr(j+1)+' не подходит и не будет учитываться! '); for k:=j+1to n-1 do for i:=0 to m-1 do tst[i,k-1]:=tst[k,i]; for i:=0 to m-1 do tst[i,n-1]:=0; dec(n); end; end; end; procedure Tform1.Shag2; var i,j,sum_vop,sum_bal:integer; begin for i:=0 to m-2 do begin sum_bal:=0; for j:=0 to n-2 do sum_bal:=sum_bal+tst[i,j]; tst[i,n-1]:=sum_bal; end; ///////// for j:=0 to n-2 do begin sum_vop:=0; for i:=0 to m-2 do sum_vop:=sum_vop+tst[i,j]; tst[m-1,j]:=sum_vop; end; End; procedure TForm1.Shag3; var i,j,k:integer; q_bal,p_bal:array of integer; q_vop,p_vop:array of integer; tr_zadan,p:array of double; got_stud,log_got:array of double; sred_got,sred:double; begin SetLength(p_vop,m-1); SetLength(q_vop,m-1); SetLength(q_bal,n-1); SetLength(p_bal,n-1); Setlength(tr_zadan,n-1); Setlength(got_stud,m-1); Setlength(log_got,m-1); Setlength(p,n-1); for i:=0 to m-2 do begin p_vop[i]:=tst[i,n-1]; q_vop[i]:=n-p_vop[i]; got_stud[i]:=(p_vop[i]/q_vop[i]); log_got[i]:=ln(got_stud[i]); end; for j:=0 to n-2 do begin p_bal[j]:=tst[m-1,j]; q_bal[j]:=m-p_bal[j]; tr_zadan[j]:=q_bal[j]/p_bal[j]; end; sred:=0; for i:=0 to m-2 do sred:=sred+got_stud[i]; sred_got:=sred/(m-2); for j:=0 to n-2 do begin p[j]:=1/(1+exp(ln(tr_zadan[j])-ln(sred_got))); end; sg_vop.ColCount:=n; sg_vop.RowCount:=2; sg_vop.DefaultColWidth:=35; sg_vop.Color:=$ff000000; sg_vop.FixedCols:=1; sg_vop.FixedRows:=1; sg_vop.cells[0,1]:='p='; For j:=0 to n-2 do begin sg_vop.Cells[j+1,0]:=inttostr(j+1); sg_vop.Cells[j+1,1]:=floattostr(p[j]); end; end; Метод подсчета точечно-бисериального коэффициента корреляции. procedure TForm1.Shag_2; var i,ss: integer; begin ss:=0; for i:=0 to m-2 do ss:=ss+tst[i,n-1]; ss:=ss div (m-1); DT_sr:=ss; end; procedure TForm1.Shag_3; var i,ss,ma: integer; begin ma:=tst[0, n-1]; ss:=ma; for i:=1 to m-2 do begin if( tst[i, n-1] > ma )then ma:=tst[i, n-1]; if( tst[i, n-1] ss:=tst[i, n-1]; end; ss:=0; for i:=0 to n-2 do ss:= ss+sqr(tst[i,m-1]-DT_sr); DT_disp:=ss/(n-2); DT_otkl:=sqrt(DT_disp); end; procedure TForm1.Shag_4; var i,j,k,ss,ddi,ddj, nddi, nddj: integer; di,dj,dd: double; begin for j:=0 to m-2 do begin nddi:=0; nddj:=0; ddi:=0; ddj:=0; for i:=0 to n-2 do begin if( tst[i,j] = 1 )then begin ddi:=ddi+tst[i,n-1]; inc(nddi); end else if( tst[i,j] = 0 )then begin ddj:=ddj+tst[i,n-1]; inc(nddj); end; end; di:=ddi/nddi; // ср. прав. dj:=ddj/nddj; // ср. неправ. sg_vop2.Cells[j+1,0]:=inttostr(j+1); sg_vop2.Cells[j+1,1]:=floattostrf( (di-dj)/DT_otkl*sqrt(nddj/(n-1)*nddi/(n-2)), ffFixed, 3,2); end; end; Метод расчета коэффициента корреляции. procedure TForm1.Shag33; var i,j,k,ss,ddi,ddj: integer; di,dj,dd: double; ar: array of array of double; str: string; begin SetLength(ar,n); {$O-} for i:=0 to n-1 do SetLength(ar[i],n); sg_vop3.ColCount:=n; sg_vop3.RowCount:=n; sg_vop3.DefaultColWidth:=32; sg_vop3.Color:=$ff000000; sg_vop3.FixedCols:=1; sg_vop3.FixedRows:=1; for i:=0 to n-1 do for j:=0 to n-1 do begin ss:=0; ddi:=0; ddj:=0; for k:=0 to m-2 do begin if( (tst[k,i] = 1) and (tst[k,j] = 1) )then inc(ss); if( tst[k,i] = 1 )then inc(ddi); if( tst[k,j] = 1 )then inc(ddj); end; di:=ddi/(m-1); dj:=ddj/(m-1); dd:= ss/(m-1); ar[i,j] := (dd-di*dj)/sqrt(di*(1-di)*dj*(1-dj)); sg_vop3.Cells[i+1,j+1]:=floattostrf(ar[i,j], ffFixed, 3,2); sg_vop3.Cells[0,j+1]:=inttostr(j+1); sg_vop3.Cells[i+1,0]:=inttostr(i+1); end; end; Приложение 3. Информационная карта тестовых материалов. 1.Общие данные 1.1.1 Специальность и квалификация 1.1.2 Наименование: МОиАИС, ПИвЭ. 1.1.3 Шифр по ГОС: 010503, 080801. 1.2 Дисциплина 1.2.1 Наименование: Исследование операций 1.2.2 Наименование цикла по ГОС: общие математические и естественнонаучные дисциплины. 1.2.3. Компонент по ГОС: региональный ( вузовский ) компонент 1.2.4. Объем часов по ГОС: 140,105. 1.3. Цели создания банка тестовых заданий: формирование тестов для оценки качества обучения студентов. 1.4. Апробация банка тестовых заданий 1.4.1. Период апробации: октябрь 2005г. – январь 2006г. 1.4.2. Место проведения: ТюмГУ, ИМиКН. 2. Структура тестового материала. 2.1. Вид теста: критериально – ориентированный. 2.2. Тип теста: полиморфный.
Всего ТЗ
160
Количество форм тестовых заданий (ТЗ)
откр.
закр.
на соотв.
упорядоч.
60
60
20
20 Глоссарий. Апробация теста - предварительное тестирование стратифицированной выборки испытуемых для определения соответствия теста его целям и априорным характеристикам. Апробация есть необходимый этап для создаваемого теста перед его широким использованием. Валидность теста критериальная - характеристика теста, отражающая показатель соответствия диагноза и прогноза теста определенным внешним критериям, характеризующим объект измерения.
Валидность теста прогностическая — частный случай валидности критериальной. Отражает эффективность прогноза теста о возможностях испытуемых в будущем. Валидность теста содержательная — характеристика теста, выражающая показатель охвата заданиями теста той области знания, подготовленность в которой этот тест оценивает. Валидность сопоставительная (текущая) - частный случай валидности критериальной. Отражает соответствие текущего диагноза теста результатам другого измерения того же объекта. Валидность теста - комплексная характеристика теста, отражающая его способность измерять именно то, для чего он предназначен. Характеризует возможности генеральной совокупности заданий в тестируемой области знаний несмещенно оценить объект измерений теста. Дихотомическое (альтернативное) тестовое задание — задание, выполнение которого оценивается только альтернативно: выполнено верно (обычно символизируется единицей) или выполнено неверно (обычно символизируется нулем). Логит - единица измерения уровней подготовленности участников тестирования и трудностей тестовых заданий в рамках логистических моделей тестирования. Если разность между упомянутыми двумя понятиями составляет 1 логит, то вероятность верного выполнения таким испытуемым такого задания равна 0,73. Матрица ответов - прямоугольная таблица, в каждой позиции которой указываются ответы участника тестирования. Обычно номер строки соответствует номеру испытуемого, а номер столбца соответствует номеру задания теста. Модель двухпараметрическая - логистическая модель, в которой функция успеха зависит от разности между уровнем подготовленности тестируемого и уровнем трудности тестового задания и от коэффициента дискриминации тестового задания. Модель однопараметрическая - логистическая модель, в которой функция успеха зависит только от разности между уровнем подготовленности тестируемого и уровнем трудности тестового задания Надежностикоэффициент - количественная характеристика надежности, изменяющаяся от 0 до 1; показывает, в какой мере результаты тестирования можно считать реальными, а в какой приписывать влиянию случайных ошибок. Представляет собой отношение дисперсии измеряемого объекта в выборке (обычно истинного балла) к реально полученной полной дисперсии с учетом неизбежных ошибок измерений (обычно тестового балла). Надежность теста - показатель точности и устойчивости результатов измерения с помощью теста при его многократном применении. Характеризует степень адекватности отражения тестом соответствующей генеральной совокупности заданий. Педагогические измерения - область педагогики, разрабатывающая и применяющая методы и средства измерений и оценки результатов учебной деятельности испытуемых. Разрешающая способность теста (РСТ) - длина промежутка на шкале уровня подготовленности испытуемых, соответствующая изменению первичного балла участника тестирования на единицу Тест педагогический - совокупность тестовых заданий, позволяющая по результатам их выполнения объективно измерить уровень подготовленности испытуемых по конкретным разделам определенной области знания. Тест педагогический представляет собой конечную репрезентативную выборку из генеральной совокупности калиброванных тестовых заданий. Тестология - наука, изучающая возможности оценить различные свойства личности с помощью специально разработанных тестов и методов их интерпретации

Не сдавайте скачаную работу преподавателю!

Данный реферат Вы можете использовать для подготовки курсовых проектов.

Доработать Узнать цену написания по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем реферат самостоятельно:

!	Как писать рефераты Практические рекомендации по написанию студенческих рефератов.
!	План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
!	Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
!	Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
!	Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:

→	Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Другие популярные рефераты:

Реферат	Механические волны
Реферат	Обратная матрица
Реферат	Инверсия и ее применение
Реферат	Социокультурная динамика межпоколенных взаимодействий
Реферат	Расследование преступлений в сфере компьютерной информации
Реферат	Туристско-краеведческая характеристика Калининградской области
Реферат	Организация административно-хозяйственной службы гостиницы
Реферат	Диагностика психологической готовности ребенка к школе 2
Реферат	Модель современного менеджера
Реферат	Условия формирования военно-административной системы Южного Зауралья в XVII - первой половине XIX века

Сейчас смотрят :

Реферат	Hemmingway Hero Essay Research Paper Divided Minds
Реферат	Osmosis Essay Research Paper Title
Реферат	Oneflewover The Cuckoos Nest Essay Research Paper
Реферат	Confucius And Confucianism Essay Research Paper Confucius
Реферат	В ожидании чуда, или Рекомендации будущим мамам
Реферат	Fate Of Romeo And Juliet Essay Research
Реферат	Hoffa Essay Research Paper Los Angeles TimesThe
Реферат	High School Essay Research Paper During the
Реферат	El Greco Essay Research Paper En mi
Реферат	Marijuana Users 2
Реферат	Огюст Роден творческий путь
Реферат	Рембрандт Ван Рейн. "Возвращение блудного сына"
Реферат	Galileo Essay Research Paper Galileo Galilei Galileo
Реферат	Эволюционные учения
Реферат	Политические элиты. Концепции политического элитизма

Реферат по предмету "Математика"

Анализ тестовых материалов

Другие популярные рефераты:

Сейчас смотрят :