Содержание
1. Проблемакачества социологического измерения
2. Надежностьи валидность измерения3. Конструированиеиндексов и шкал
Библиографическийсписок
1. Проблема качества социологического измерения
Переменная-признак, включенная в модель измерения, можетзадаваться совокупностью эмпирических индикаторов (в предельном случае — одниминдикатором), наблюдаемые значения которых содержат, помимо истинного,ошибочный компонент. Задача оценки качества измерения — это, говоря обобщенно,задача разделения истинного значения и ошибки. Еще одна проблема, стоящая передисследователем, связана с необходимостью использовать несколько показателей(вопросов анкеты, данных наблюдения и т. п.) для построения суммарного индекса илишкалы, позволяющих получать более точные, т. е. менее подверженные смещению,оценки интересующей исследователя переменной. Индексы и шкалы позволяют перейтиот многообразия конкретных, наблюдаемых переменных-индикаторов, отражающих лишьотдельные аспекты теоретического понятия, к более абстрактным переменнымтеоретической модели. Так, например, конкретный вопрос об участии в голосованиидозволяет сделать определенные выводы о политической активности людей, однакоограничившись только этим вопросом, вы ничего не узнаете о других аспектах иформах политической активности. Кроме того, использование несколькихпоказателей позволяет уменьшить влияние посторонних факторов на ваши оценкивеличины или разброса значений переменной и сделать получаемые результаты болееустойчивыми и воспроизводимыми. Иными словами, использование индексов и шкалведет к повышению надежности и валидности измерения. С рассмотрения этихпонятий мы и начнем данную главу.
2. Надежность и валидность измерения
Качество отдельных индикаторов, суммарных показателей (индексов) ишкал определяется их надежностью и валидностью.
Надежность измерения связана с его устойчивостью ивоспроизводимостью. Показатель может считаться надежным в той мере, в которойполученные оценки могут быть воспроизведены на данной совокупности объектовизмерения. Основной вид надежности — это надежность-повторяемость (илидиахронная, ретестовая надежность). Оценка ретестовой надежности отражаетрезультаты повторного применения одного и того же показателя (вопроса, теста)для одной и той же выборки случаев (респондентов) в разные моменты времени.Если люди отвечают на вопрос одинаково и в первом, и во втором, и во всякомпоследующем случае, то этот вопрос надежен. Если тест умственных способностейдает те же результаты при повторной проверке на одной и той же группестаршеклассников, то это надежный тест.
Важно отметить, что надежность инструмента измерения не отражаетего точность или правильность. Скажем, если на вопрос о доходе респондентыдважды дадут совершенно идентичные ответы, завышенные на какие-нибудь 100%, мыимеем дело с абсолютно надежным, но неточным показателем. Если, в другомслучае, термометр с безукоризненной надежностью показывает электрическоесопротивление кожи, у нас нет оснований говорить о правильности, адекватностиизмерения. Оценка надежности-повторяемости — это корреляция между результатамиповторных измерений. В случае единичного вопроса-индикатора достаточно простосопоставить ответы одной и той же группы людей, полученные в первом опросе, сответами, данными двумя неделями или месяцем позднее, и вычислить коэффициенткорреляции. На практике хорошей можно считать корреляцию 0,8 и выше.
К недостаткам оценок надежности-повторяемости следует отнести,во-первых, сложность проведения повторных замеров на больших выборках, типичныхдля социологии. Во-вторых, истинное значение переменной также может изменятьсяс течением времени, например, политические симпатии могут измениться за неделюв результате каких-то скандальных разоблачений, а зарплата — существенновозрасти за месяц из-за введения обязательного индексирования в условияхинфляции. В последнем случае перед исследователем встанет трудноразрешимаязадача отделить колебания, вызванные изменением истинного значения переменной,от колебаний, связанных с надежностью показателя. Поэтому так важен еще одинвид надежности — надежность-согласованность. Оценить надежность-согласованностьможно лишь в том случае, если для измерения одной и той же переменнойиспользуют множество индикаторов. Зато для такой оценки достаточно однократногоизмерения. В психологическом тестировании, например, используют батареи тестов,нацеленных на измерение одной способности или одного личностного качества.Социологи — если они располагают достаточными средствами и техническими возможностями— используют индексы и шкалы, состоящие из множества отдельныхвопросов-индикаторов.
Самый простой способ оценки надежности-согласованности — это«расщепление пополам». Если, например, у нас есть 12 вопросов, предположительноизмеряющих политическую активность, где каждому вопросу присвоен 1 балл, амаксимальной политической активности соответствует суммарный индекс 12 баллов,то применяется следующая процедура:
1. Вопросы в случайном порядке разбиваются на два равных списка(по 6 вопросов в каждом) и предъявляются один раз группе испытуемых.
2. Далее подсчитывается коэффициент корреляции между результатамиодних и тех же испытуемых по разным «половинам» теста: чем выше его значение,тем согласованнее оценки истинного значения политической активности, получаемыес помощью данного набора индикаторов. Не исключено, однако, что полученнаятаким способом оценка надежности окажется весьма чувствительной к способу«расщепления пополам»: коэффициент корреляции будет заметно меняться взависимости от способа составления двух списков.
Еще одна элементарная процедура, позволяющая оценить надежностьотдельного вопроса (высказывания, пункта шкалы), — это проверка его корреляциис суммарным баллом, т. е. с суммарным значением индекса. Если для данной группыопрошенных коэффициент корреляции между отдельным вопросом о частоте зарубежныхпоездок и суммарным «индексом ксенофобии» оказался равен 0,3, то можнопредположить, что названный вопрос не отражает истинного значения переменной«уровень ксенофобии» и может быть исключен из опросника. Ведь строгоопределенная надежность — это та доля измеренного разброса оценок, котораяотносится к истинному разбросу значений измеряемой переменной (мы пользуемсяздесь менее строгим и скорее содержательным определением, поскольку пока необсуждали необходимые статистические понятия). Очевидно, что коррелирование ссуммарным баллом — это процедура, применимая для имеющих довольно простуюструктуру суммарных индексов и шкал.
В любом случае важно располагать явной моделью измерениятеоретической переменной, так как лишь она позволит предсказать, каковыожидаемые отношения между отдельными индикаторами и насколько применимыописанные простые методы оценки надежности. Чтобы убедиться в этом, достаточносравнить модель с множеством эффект-индикаторов латентной переменной с моделью,включающей только причинные индикаторы. Очевидно, что эффект-индикаторы должныбыть высоко согласованны и с латентной, переменной-свойством, которую онипризваны измерять, и друг с другом. Однако это не так уж очевидно для причинныхиндикаторов: скажем, и образование, и доход — важные компоненты понятия«социально-экономический статус». Однако даже если образование растет, доходимеет право вести себя как угодно, т. е. он вовсе не должен показыватьнепременно высокую корреляцию с образованием. Иными словами, если от надежныхэффект-индикаторов следует ожидать высокой скоррелированности друг с другом(при использовании методов «расщепления пополам» или корреляции с суммарнымбаллом), то для причинных индикаторов столь простой подход к оценке надежностинеприменим. Разработать подходящий метод оценки надежности здесь можно, лишьанализируя взаимосвязи разных индикаторов и разных теоретических переменных вмодели измерения. Прогнозируя ожидаемую направленность и величину этих связей,исследователь может оценить степень соответствия своих предсказаний наблюдаемымданным и сделать вывод о качестве индикатора. Самыми универсальными методамиоценки надежности эмпирических индикаторов являются факторный анализ и путевой анализ.В идеале для оценки надежности используют несколько индикаторов (два-три) и покрайней мере две волны панели.
Очень важно помнить, что понятие надежности связано со случайнымиошибками измерения, т. е. с ошибками, которые никаким систематическим образомне связаны друг с другом или какими-то систематически действующими внешнимипеременными (скажем, полом или возрастом респондентов). Типичные источникиненадежности — это случайные несистематические факторы, связанные сколебаниями внимания респондентов, неоднозначностью формулировки вопроса,ведущей к различию в его восприятии в разных случаях; несистематическимиразличиями в проведении интервью; различиями в кодировании открытых вопросов,или с ошибками при вводе данных. Например, если предложить даже очень опытнымспециалистам классифицировать сотню населенных пунктов по заранее разработаннойсхеме кодирования типов поселений, то, вероятнее всего, можно будет найти покрайней мере несколько расхождений в получившихся классификациях. Некоторыерасхождения будут связаны с наличием «предельных» случаев, не поддающихсяоднозначной классификации по предложенным правилам, некоторые — с механическимиошибками записи или невнимательностью. Предварительная оценка надежностивопросов социологической анкеты требует прежде всего «отбраковки» неясносформулированных вопросов, на которые люди часто отвечают случайным образом.Столь же низка надежность вопросов, на которые респонденты попросту не способныответить, так как не имеют никакого мнения по затронутой проблеме или ничего незнают о ней. Далеко не все опрошенные, столкнувшись с иррелевантным вопросом,честно ответят «не знаю» или «не помню». Многие дадут наугад выбранный ответ извежливости или нежелания демонстрировать свою неосведомленность.
Методы увеличения надежности нами уже обсуждались. Во-первых,нужно стремиться к использованию множественных индикаторов. Когда же этоневозможно, т. е. существуют теоретические или практические трудности визмерении одной переменной разными способами, то следует использовать самыеустоявшиеся и общепринятые показатели (например, если можно лишь один разспросить респондента о его возрасте, то лучше всего использовать в точноститакую же формулировку вопроса и те же категории ответа, какие используются вобщенациональных переписях, масштабных панельных исследованиях и т.п.).
К другим методам увеличения надежности можно отнести «отсев»иррелевантных вопросов, анализ словесной формулировки вопроса, обучение иконтроль интервьюеров, совершенствование методов кодирования данных и процедурввода.
Валидность измерения, в самом общем смысле, характеризуетсоответствие измерения его цели. Эмпирический показатель валиден (обоснован,правилен) в той мере, в какой он действительно отражает значение тойтеоретической переменной, которую предполагалось измерить. Очевидно, что нетсмысла говорить о валидности какого-то индикатора самого по себе. Валидностьинструмента измерения состоит в однозначностш и правильности получаемыхрезультатов относительно измеряемого свойства объектов, т. е. относительнопредмета измерения. Можно сказать, что валидность определяет «чистоту»измерения теоретического конструкта. Когда измерение является непосредственным,т.е. мы можем прямо подсчитать количество эталонных единиц измеряемогосвойства, и на результаты измерения влияют только случайные ошибки, надежностьи валидность неразличимы, валидность инструмента измерения равна егонадежности. Если мы измеряем интересующее нас свойство лишь косвенно, используякакой-то индикатор, возникает различие между надежностью и валидностью.Индикатор может обладать высокой надежностью (воспроизводимостью), но при этомизмерять интересующий нас социологический конструкт недостаточно «чисто». Ужена интуитивном уровне очевидно, что вполне надежный инструмент может измерятьнечто другое, помимо интересующего исследователя качества (например, не столькополитическую активность, сколько конформизм). Косвенное измерение обычносодержит и случайный, и неслучайный ошибочный компонент. Именно неслучайныйкомпонент, включающий в себя систематическую (скоррелированную) ошибку и, реже,имеющую одну и ту же величину для каждого случая постоянную ошибку измерения,определяет валидность показателя. Характерными примерами систематической ошибкиизмерения в социологическом опросе или эксперименте являются уже упоминавшиесяэффекты «памяти», социальной желательности, установки за позитивный илинегативный ответы. Они влияют не только на правильность, валидность индикатораинтересующей исследователя переменной, но и на правильность и обоснованностьрезультатов анализа данных: скоррелированная ошибка измерения можетвоздействовать на любые статистические показатели, в том числе на показателивзаимосвязи между переменными и на оценки значимости различий междуподгруппами. Иными словами, конечным итогом «пользования невалидных индикаторовмогут оказаться неверные содержательные выводы.
Проблема валидности измерения — сложнейшая проблемасоциологической методологии. Валидное измерение — это прежде всего результатвалидной модели измерения, т. е. результат обоснованной и яснойконцептуализации теоретических представлений. Здесь мы опишем лишь основныевиды валидности и традиционные методы валидации, т. е. установления валидностиизмерений.
Валидностъ по содержанию показывает, в какой мере избранные исследователеминдикаторы отражают различные аспекты теоретического понятия. Иными словами,речь идет о представительности данной совокупности измерений да отношению кконцептуальной структуре переменной-признака, о полноте операционализациитеоретических понятий. Например, экзамен по статистике может рассматриватьсякак валидный инструмент измерения статистических знаний студентов, так какэкзаменационные вопросы отражают содержание лекций и учебников. Однако если всевопросы относятся лишь к одному разделу прочитанного курса — скажем, кнормальному распределению, — то результаты экзамена будут отражать, например,умение студентов переводить «сырые» баллы в стандартные оценки, но ничего нескажут о знании корреляции и регрессии.
Основная процедура оценки валидности по содержанию — это суждениеэксперта. В некоторых случаях связь между теоретическими понятиями иизмеряющими их индикаторами столь ясна, что никакие специальные обоснованияпопросту не требуются: понятно, что термометр измеряет температуру. Здесь можноговорить об очевидной (иногда—лицевой, от англ. face validity) валидностипоказателя. Очевидная валидность тем выше, чем тождественнее понимание целивопроса, теста или иного показателя профессионалом-социологом и неискушеннымреспондентом. Вопрос о частоте покупки шампуня, по всей вероятности, несодержит в себе никаких подвохов и позволяет судить именно о том типепотребительского поведения, который описан в вопросе. Однако в более сложныхслучаях содержательная валидность отнюдь не сводится к очевидной. Набор простыхвопросов о излюбленном способе проведения досуга, предпочитаемой маркеавтомобиля, частоте чтения престижного журнала и т. п. может быть нацелен наизмерение «стиля жизни» респондента (в данном случае измерение позволяетотнести человека к одной из номинальных категорий стиля жизни — «выживающий»,«достиженческий», «экзистенциальный», «социальный» и т. п.). Судить о полнотеэтого набора и относительной значимости вопросов для измерения понятия «стильжизни» могут только специалисты. Основой такого экспертного суждения являетсятеоретическое определение, концептуализация исследовательской переменной.Обычно экспертное суждение о валидности по содержанию выносится более или менеестихийно, после публикации результатов исследования. Иногда все же удаетсяиспользовать более организованные процедуры — метод параллельных панелей илиметод нескольких судей. В первом случае две или три последовательные панелиспециалистов проводят всю процедуру валидации по содержанию, т. е. сравниваютсуществующие дефиниции, составляют список возможных индикаторов и оценивают ихрепрезентативность по отношению к исследуемой концептуальной области. Еслисравнение индикаторов, независимо отобранных в двух и более панелях,обнаруживает множество совпадений, можно говорить о высокой содержательнойвалидности.
Метод нескольких судей (экспертов) полезен в тех случаях, когдапеременная-признак, которую предполагается измерить, имеет многомернуюструктуру. Если, например, социолог разрабатывает воображаемую шкалу социально-экономическогоблагополучия регионов, то полезно обратиться к специалистам в таких областях,как демография, социальная политика, занятость, налоговая система и т. п. Опросэкспертов позволит выявить существенные факторы, входящие в шкалу, оценить их сравнительнуюзначимость и найти релевантные эмпирические индикаторы.
Критериальная валидность (или валидность по критерию) показывает,насколько хорошо результаты по данному тесту или индикатору согласуются срезультатами измерения другого показателя, называемого критерием. Чаще всегокритерий — это та переменная, которая и представляет практический интерес дляисследователя, но не может быть измерена в данный момент. Например,критериальная валидность вступительных экзаменов определяется той академическойуспеваемостью, которую в дальнейшем продемонстрируют студенты (т. е.академическая успеваемость является в данном случае критерием). Можно такжепредположить, что тест моральной оценки девиантного поведения для подростковобладает критериальной валидностью по отношению к реальному отклоняющемусяповедению. Индикатор, обладающий доказанной критериальной валидностью, можетрассматриваться как переменная-предиктор, позволяющая предсказыватьиндивидуальные значения переменной-критерия. Конечно, нужда в предикторе,замещающем собственно критерий, возникает лишь в тех случаях, когда оценки покритерию получить трудно, т. е. речь идет о давно прошедших или еще ненаступивших событиях, либо переменную-критерий трудно измерить из-запрактических или этических соображений. Валидность предиктора обычно тем выше,чем ближе он к критерию. Скажем, идеальным методом отбора курсантовавиационного училища мог бы стать пробный краткосрочный курс обучения спроверкой практических навыков управления самолетом в финале: прошедшие проверкупретенденты имели бы все шансы стать настоящими профессионалами. Однако такойметод слишком дорогостоящ и на практике используют тесты интеллекта, испытаниявизуально-моторной координации и другие показатели, установив предварительно ихкритериальную валидность. В другом случае проективный личностный тест (типа ТАТ— теста тематической апперцепции, подразумевающего составление рассказов пофотографиям с неопределенным сюжетом) позволит выявить признаки психоза либотравмирующего сексуального опыта в прошлом пациента. Полное психиатрическоеобследование могло бы занять очень много времени, да и данные о плохомобращении в детстве получить довольно трудно.
К основным типам критериальной валидности относят прогностическую,конкурентную и постдиктивную («предсказывающую-назад») валидности.
Прогностическая критериальная валидность описывает точность, скоторой значения данной переменной — обычно характеризующей отдельного индивидаили группу — могут быть предсказаны на основании текущих значений какой-то другойпеременной (предиктора). Очевидно, что наилучшим показателем такойпрогностической точности будет корреляция между значениямипеременной-предиктора и значениями переменной-критерия для одной и той жевыборки. Тогда — в пределах ошибки выборки — коэффициент корреляции будет равенкоэффициенту прогностической валидности.
Конкурентная валидность по критерию — это степень соответствиямежду текущими значениями переменной-критерия и переменной-предиктора. Попростуговоря, исследователь использует результаты измерения по одному признаку длятого, чтобы оценить значение другой переменной. Причина может заключаться втом, что измерение непосредственно переменной-критерия трудноосуществимо,занимает слишком много времени и т. п. Проблема конкурентной валидности весьмазначима для эмпирической социологии, где многие поведенческие или установочныепеременные измеряются не непосредственно, а через самоописания, ответы наанкетные вопросы, иными словами, через вербальное поведение. Например, мы можемоценить конкурентную валидность анкетного вопроса о частоте посещения дискотекистудентами-отличниками с помощью серии включенных наблюдений за реальнымповедением данной группы. Уже ранние исследования конкурентной валидностифактографических вопросов в социологии показали, что даже для относительно«безобидных», несензитивных индикаторов конкурентная валидность можетизменяться в самых широких пределах.
В так называемом Денверском исследовании валидности, проведенномС. Стауффером и соавторами в 1947 г., сопоставлялись данные ответовреспондентов на фактографические вопросы и данные официальной статистикиместных организаций. Речь шла о регистрации избирателей, участии в голосовании,взносах в городскую казну, о наличии водительских прав и читательского билета ит. п. Сопоставляя данные официальной статистики (критерий) с ответамиреспондентов (предиктор), исследователи обнаружили, что величина расхожденийсоставляла от нескольких процентов до почти 50%, в зависимости от содержаниявопроса.
Следует, однако, помнить и об ограничениях, присущих объективнымпоказателям-критериям: данные официальных документов также нередко основаны насамоотчетах и нередко подвержены ошибкам измерения. Все же в некоторых случаяхпроцедура конкурентной валидации имеет преимущество перед предиктивной, так какпервая не требует от исследователя длительного ожидания того момента, когдаможно будет измерить значения критерия. Если, например, исследователь хочетоценить критериальную валидность теста профессиональных интересов,разработанного для студентов, как предиктора успешной профессиональной карьеры,то ему необязательно ждать десять лет, чтобы измерить значениепеременной-критерия. Достаточно провести тестирование профессиональныхинтересов для двух «крайних» групп уже работающих специалистов — преуспевших инаименее преуспевших в профессии в данный момент времени. Высокая корреляциямежду тестовым баллом и успешностью работы (или статистически значимое различиетестовых баллов «крайних» групп) будет свидетельствовать о конкурентнойвалидности теста. Условиями, при которых выводы о конкурентной валидностииндикатора могут все же оказаться ошибочными, являются избирательное выбываниеиз выборки (самоотбор) и реактивность переменной-предиктора. Самоотбор в нашемпримере может иметь место в том случае, если среди выбывших из выборки (бывшихстудентов, отказавшихся от профессиональной карьеры в данной области и неохваченных по этой причине проводимым тестированием) будут сверхпредставленывысоко- либо низкомотивированные, т. е. естественное выбывание будет носитьнеслучайный характер. В случае реактивности индикатора наши испытуемые будутотвечать на вопросы теста мотивации не так, как они отвечали будучи студентами(из-за повлиявших на них профессионального опыта, изменения социального статусаи т. п.) И все же существуют нереактивные переменные-предикторы, конкурентнаявалидность которых вполне поддается обоснованию. Примером могут служить такиестабильные характеристики, как коэффициент интеллекта или «фоновые» переменные(социальное происхождение, национальная принадлежность и т. п.).
Наконец, в некоторых случаях мы заинтересованы в том, чтобыустановить точность, с которой мы можем оценить наличие какого-токритерия-признака или черты, присущей индивиду (группе) в прошлом. Примериспользования проективного психологического теста для постдиктивного «прогноза»детских травм приведен выше. Эта ситуация обозначается как оценка постдиктивнойвалидности.
Описанные нами виды валидности существенны в тех ситуациях, когдаперед исследователем стоит задача сравнить некий показатель с уже существующимиили с используемым в практике критерием. Иными словами, критериальнаявалидность показателя — это корреляция с другим, предположительно «чистым»,эмпирическим показателем. Однако существует и другой подход к валидности, гдеоценка индикатора основана на том, насколько хорошо его «поведение»соответствует теоретическим ожиданиям. Такая оценка может быть проведена лишь врамках целостной теоретической модели, описывающей отношения междутеоретическими переменными, их индикаторами, случайными и неслучайными ошибкамиизмерения. Предположим, мы хотим проверить валидность новой шкалы групповойсплоченности. Основываясь на существующих теоретических представлениях, мыможем предположить, что большей групповой сплоченности соответствует меньшаячастота открытых конфликтов и большая интенсивность коммуникаций. Сравнивразличные по уровню групповой сплоченности группы и определив для них значениядругих двух переменных (частота конфликтов и интенсивность коммуникаций), мы увидим,насколько хорошо «ведет» себя разработанный нами показатель групповойсплоченности. Если паттерн его отношений с двумя другими переменнымисоответствует предсказаниям теории, то мы можем заключить, что новая шкалавалидна, т. е. измеряет именно ту теоретическую переменную, которая насинтересует. Этот вид валидности обычно обозначают термином «конструктнаявалидность». (Иногда используют также обозначение «концептуальная валидность».)
Со статистической точки зрения абсолютная конструктная валидность предполагает,что весь наблюдаемый разброс в значениях показателя связан исключительно сизмеряемым теоретическим конструктом. Если же часть вариации индикатора связанас другой переменной — будь то другой теоретический конструкт илисистематическая ошибка измерения,— конструктная валидность окажется меньше.
Легко заметить, что оценка конструктной валидности предполагаеткакую-то связь между проверкой содержательных теоретических гипотез и проверкойкачества измерения. Действительно, оценка конструктной валидности посредствомсопоставления теоретической модели «поведения» изучаемой переменной с реальнымиотношениями индикаторов требует включения модели измерения в более широкуютеоретическую модель.
Предположим, мы используем некоторый суммарный показатель — индекс«демократизма политической системы», состоящий из ряда индикаторов (Х1,Х2, Х3), каждый из которых имеет свой собственный «вес» виндексе демократизма. К таким индикаторам могут относиться наличие парламента(номинальная дихотомическая переменная), количество независимыхтелерадиокомпаний и т.п. Исходя из теоретической модели, мы ожидаем, чтостепень «демократизма» находится в обратной связи с долей ВНП, расходуемой намодернизацию вооружений. Основываясь на этой модели, можно проверить конструктнуювалидность изобретенного нами индекса демократизма.
/>
/>
Доля расходов на вооружение,
Y С/> /> /> /> /> /> /> /> />
Рис. 1. Модель взаимосвязи для переменных «демократизм» и «долярасходов на вооружение»
Собрав необходимые данные для 10—15-и национальных государств, мыможем обнаружить, что наш индекс «демократизма» невалиден, так как ожидаемоеотношение между теоретическими переменными (с) не выполняется, их корреляцияравна нулю. Просмотрев наши данные, мы, например, обнаружим, что в некоторыхстранах, почитаемых за образец демократического общественного устройства,изрядную часть бюджета составляют военные расходы, тогда как некоторые деспотыиз «банановых республик» вполне обходятся кремневыми ружьями. Однако вывод оневалидности нашего измерения «демократизма» верен лишь в том случае, есливерны наши теоретические представления о связи демократии и пацифизма. Если жедемократия и пацифизм отнюдь не связаны друг с другом, наши результаты вовсе недоказывают низкую валидность индикатора: вполне возможно, что как раз«демократию» мы измеряли правильно, но неверна была наша теоретическаягипотеза. Существует своеобразное отношение дополнительности между собственнотеоретическими моделями и моделями измерения. Оценить качество показателей вмодели измерения можно, лишь приняв теоретическую модель как безусловно верную.Для оценки справедливости собственно теоретической модели, нужно принятьпредположение о конструктной валидности индикаторов и провести новое исследованиес новыми данными.
Существуют сложные статистические методы, позволяющие одновременнооценивать модель измерения и теоретическую модель (часто их называют«LISREL-методы»). Они применимы лишь к моделям с несколькими индикаторами длякаждой переменной. Однако некоторые методологи полагают — на наш взгляд,справедливо, — что попытки проверить модель измерения и совокупностьтеоретических гипотез на одних и тех же данных чреваты возможностьюошибочных выводов. Если теория, предсказания которой мы используем для проверкиконструктной валидности, относительно нова и не стала еще общепринятой истиной,мы просто не сможем определить, связан ли отрицательный результат исследованияс невалидностью показателя, или причиной всему — ложные теоретическиепредставления. Крометого, может оказаться, что мы отберем худший изпоказателей, ибо именно онподдерживает неверную теорию. Поэтомупроверка конструктной валидности индикаторов и проверка теорий требуют от насразных исследований, множественных показателей и разных матриц данных.
3. Конструирование индексов и шкал
Использование нескольких индикаторов, как было показано выше,увеличивает валидность и надежность измерения переменных. Здесь, однако,возникает новая проблема: как использовать полученные значения индикаторов длятого, чтобы охарактеризовать каждый «случай» (каждого респондента, группу,страну и т. п.) одним числовым значением, однозначно определяющим его положениена одномерном континууме переменной-признака, для измерения которой мыиспользовали данный набор индикаторов. Иными словами, нужно осуществитьобратный переход от набора значений эмпирических индикаторов, описывающихкаждую конкретную единицу анализа, к упорядочению всех единиц анализа по осиинтересующей нас переменной. Такое упорядочение и называется собственно шкалой,мерой выраженности переменной-признака, а логика перехода от набора наблюдаемыхзначений к шкальным значениям называется моделью шкалирования. Заметим сразу,что некий набор индикаторов — например, набор оценочных шкал — можетиспользоваться для измерения более чем одной переменной, и, следовательно,данные о наблюдаемых значениях этих индикаторов в принципе позволяютупорядочить «случай» по нескольким переменным, т.е. по нескольким шкалам.Однако это уже задача многомерного шкалирования, мы же пока ограничимсяобсуждением одномерных шкал и индексов.
Если вернуться к структурированной матрице данных «переменная хслучай», то можно увидеть, что процедура конструирования шкалы может бытьописана и как процедура «сжатия» матрицы данных, уменьшения ее размерности.Предположим, три строки нашей матрицы соответствуют переменным-индикаторам«доход», «род занятий» и «образование». Мы включили эти индикаторы в нашеисследование ради того, чтобы охарактеризовать социально-экономический статускаждого респондента, т.е. расположить их от низкого статуса к высокому. Если мывместо трех строк, соответствующих доходу, образованию и профессии, введем внашу матрицу данных одну строку, отражающую положение каждого респондента насконструированной нами шкале СЭС, размерность матрицы уменьшится. Однакосначала нам нужно решить, как объединить три значения — три строки матрицы — водно, т. е. нам нужно избрать модель шкалирования.
Пусть, скажем, три строки нашей матрицы данных — это полученныекаким-то образом (тестирование, опрос экспертов и т. п.) оценки«жизнерадостности», «энергичности» и «независимости». Исследовательпредполагает, что эти три индикатора могут быть использованы для измеренияважной для его теории переменной «сила Я». Все, что ему нужно сделать — это решить,как перевести оценки в строках 1—3 в оценки «силы Я» (см. рис. 2).
Рис. 2. Фрагмент матрицы данных «переменные х субъекты»
Переменные-
индикаторы Субъект («случай») Л.М. Ф.Ж. К.Р. … 1. жизнерадостность 2 2 … 2. энергичность 2 2 2 … 3. независимость 2 2 … />
«Сила Я»? />
Самый простой и очевидный способ — это суммировать для каждогоиндивида оценки по каждому индикатору. Получившийся суммарный балл будетотражать индивидуальные различия в «силе Я», так как позволит упорядочить всехреспондентов от минимального к максимальному значению этой переменной (в нашемпримере — от 0 до 6 баллов). Еще одно преимущество суммирования — увеличениеразброса индивидуальных значений. Действительно, максимально возможное различиепо первичным индикаторам составляло 2 балла (от 0 до 2). В суммарном показателеразница между индивидуальными значениями может составить 6 баллов.Следовательно, суммарный балл — это более «чуткий» и надежный инструмент дляупорядочения и может быть назван шкалой в смысле определения, данного намивыше. Однако в социологии суммарные показатели чаще называют индексами, чтобыподчеркнуть их единственное важное отличие от «больших» шкал. Индекс позволяетэффективно «свернуть» информацию, содержавшуюся в исходных индикаторах(вопросах, пунктах, тестах), однако от суммарного балла нельзя вернуться кисходной матрице, точнее, к тому паттерну ответов, который стоит за даннымзначением индекса. Если сформулировать это корректнее, индекс не позволяетучитывать различия в структуре ответов респондентов. Если снова обратиться крисунку 12, то можно заметить, что субъекты Л. М. и Ф.Ж. имеют одинаковыйсуммарный балл, равный 4 (достаточно высокое значение!). Но можно ли считатьнесущественным то обстоятельство, что у Л. М. нулевой уровень независимости, аФ. Ж. получил тот же суммарный балл из-за недостатка оптимизма? Предположим,даже довольно мрачный человек может обладать значительной «силой Я», но следуетли считать столь же «сильным» того, кто легко поддается давлению окружения?
В принципе индексы безусловно применимы в тех случаях, когдамодель измерения предполагает, что некая латентная, т. е. не измеряемаянепосредственно переменная, может быть измерена с помощью совокупностикачественно однородных показателей. Во многих случаях различия в значимости,важности отдельных индикаторов можно учесть с помощью «взвешивания», пересчетазначений с учетом «веса» каждого индикатора в латентной переменной. Так впримере с «силой Я» можно домножить все индивидуальные значения в строке«независимость» на 2, если принять предположение о том, что независимостьвлияет на латентную переменную с двукратным эффектом.
Экономисты часто используют индексы розничных цен, отражающиединамику стоимости жизни. При этом разные товарные группы, например, имеющиенеодинаковое значение в потребительском бюджете, — как, скажем, хлеб иделикатесы — учитываются с разными весовыми коэффициентами. Но и в этом случаеиндекс остается несовершенным типом шкалы: эмпирическая информация здесьиспользуется лишь для шкалирования различий между субъектами (или другимиединицами анализа), но не для шкалирования различий между пунктами-ответами{эмпирическими индикаторами). Используя «взвешивание», мы вводим априорныеограничения на упорядочение входящих в индекс индикаторов, не зависящие отданных наблюдения.
Своеобразным переходом между моделью суммарного балла (индекса) иосновными моделями шкалирования является шкала Р. Ликерта (Лайкерта). Исходнымматериалом для ее построения служат оценочные шкалы согласия-несогласия ссуждениями, которые выражают более или менее «благожелательную» установку.Количество категорий ответа — «согласен», «совершенно согласен» и т. п. —обычно варьирует от двух до семи. Респондент получает балл по каждому суждениюв зависимости от избранного им ответа. Присуждаемый данному ответу балл в своюочередь определяется «благожелательностью» ответа по отношению к измеряемойустановке (интенсивностью согласия с суждением), т. е. ответы также упорядоченына одномерном континууме (от крайне негативной установки к крайне позитивной).Баллы, полученные за каждый ответ, суммируются. Суммарный балл, полученныйиндивидуумом, характеризует уже его собственное положение на установочномконтинууме (например, «консерватор», «умеренный консерватор», «умеренныйлиберал», «либерал»). Отметим сразу, что эта же модель шкалирования можетиспользоваться и для измерения мотивации или осведомленности (соответственнореспондента просят оценить степень важности какого-то объекта или сказать,верно или неверно определенное утверждение). Для отбора списка суждений,составляющих шкалу Ликерта, исходный список высказываний предъявляютрепрезентативной выборке респондентов (так называемой выборке стандартизации).В окончательный список попадают те высказывания, для которых были полученывысокие оценки надежности — согласованности и валидности. Обычно используютописанные нами ранее методы оценки надежности и валидности (коррелирование ссуммарным баллом, сравнение «крайних групп» и т. п.).
Приведем в качестве примера некоторые высказывания «Теста дляизмерения художественно-эстетической потребности молодежи» (в скобках дан ключк каждому высказыванию, показывающий, за какой ответ присуждается балл):
1. Думаю, что вполне можно обойтись без общения с произведениямиискусства (неверно).
2. Я не люблю стихов (неверно).
3. Я коллекционирую записи классической музыки (верно).
Шкалирование по описанной модели дает ординальный уровеньизмерения.
Шкалы социальной дистанции Э. Богардуса — старейшая модельсоциологического шкалирования, не утратившая, однако, своей популярности.Исследователь разрабатывает совокупность вопросов, отражающих различную степеньблизости отношений с определенной социальной или этнической группой, например:
1. Согласны ли Вы, чтобы хорваты жили с Вами в одном городе?
2. Согласны ли Вы жить по соседству с хорватами?
3. Согласны ли Вы работать в одном отделе (учреждении) с хорватом?
4. Позволите ли Вы своей дочери выйти замуж за хорвата?
Предполагается, что согласие с каждым последующим утверждениемотражает переход к очередной градации ординальной шкалы установок — от меньшейблизости к большей. Существенным требованием к избранной совокупности вопросовявляется их содержательная валидность, иными словами, здесь необходимыэкспертные процедуры, описанные выше. Важно также убедиться в обоснованностипредположения об одномерности шкалируемой переменной. Если в данных, полученныхпри использовании шкал социальной дистанции, встречаются «нелогичные» (такназываемые нешкалируемые) индивидуальные паттерны ответов, причиной чаще всегобывает влияние другой переменной. Примером нешкалируемого паттерна ответовможет служить ситуация, когда респондент, отрицательно ответивший на «слабые»вопросы, неожиданно соглашается с более «сильными», предполагающими высокуюстепень близости (среди специалистов по социологическим методам имеет хождениесоответствующая шутка: если человек, не желающий жить в одном городе с черными,согласен выдать свою дочь замуж за черного, это не ошибка измерения: просто онодинаково ненавидит негров и собственную дочь).
Шкала равнокажущихся интервалов Л. Терстоуна позволяет достичьболее высокого уровня измерения установок, чем ординальный. Она представляетсобой целый класс методов интервального шкалирования и будет рассмотрена здесьв качестве наиболее простого примера.
Первая шкала равнокажущихся интервалов была описана в работе 1929года и предназначалась для измерения остановок по отношению к церкви каксоциальному институту. Этой работой мы воспользуемся для того, чтобыпроиллюстрировать основные этапы предложенной Терстоуном процедуры.
Шкала Терстоуна позволяет расположить и суждения, и индивидоввдоль одномерного континуума установки, полюсам которого соответствует крайнеблагожелательное и крайне негативное отношение к объекту установки (церкви,партии, прогрессивному налогообложению или чему-либо еще). Шкальный баллсуждения или индивида отражает степень этой благожелательности илинеблагожелательности.
На первом этапе исследователь составляет максимально широкийсписок суждений (высказываний), выражающих интересующую его установку. Так,Терстоун собирал мнения коллег, студентов, высказывания из публикаций,касающихся церкви. Здесь уместны также интервьюирование, использование открытыхвопросов («Что Вы думаете о...?»), групповая дискуссия и т. п. Собранныесуждения были подвергнуты первичному отбору. Исследователи отсеяли тевысказывания, которые не удовлетворяли обычным требованиям к конструированиювопросов — двусмысленные, слишком длинные, содержащие специальные термины ит.п… При первичном отборе суждений для шкалы Терстоуна используют и некоторыеспециальные критерии:
1. Исключаются суждения, относящиеся скорее к прошлому, чем кнастоящему (например, «В средневековье церковь играла важную роль вобщественной жизни»).
2. Исключаются суждения, описывающие факты, а не мнения иотношения. Конечно, далеко не всегда можно отделить высказывания, описывающиефактическое положение дел, от прочих. Скажем, слова «Бог любит нас всех» — фактдля верующего, хотя другие люди могут усмотреть в них определенное отношение крелигии. В практических целях вполне достаточно руководствоваться следующимкритерием для выявления фактических суждений, подлежащих устранению из шкалыТерстоуна: фактом является любое высказывание, для установления истинностикоторого могут быть использованы какие-то «посюсторонние» процедурыверификации.
3. Исключаются также суждения, содержащие слова «все», «всегда»,«никто», «никогда», так как этим словам люди обычно придают различный смысл,что затрудняет интерпретацию.
В результате исходный список из 350—400 суждений сокращается до100—120. Следующим этапом является «судейская» процедура, позволяющаяопределить шкальное значение для каждого суждения и провести среди нихокончательный отбор. Терстоун предложил разделить гипотетический континуумблагожелательного-неблагожелательного отношения к церкви на 11 категорий (от«А» до «К»), разделенных субъективно равными интервалами. Требованиесубъективного равенства интервалов между градациями весьма существенно дляпостроения шкалы Терстоуна и обычно его специально подчеркивают в инструкциидля «судей» (например, «Представьте, что карточки с буквами от „А" до“К" представляют расположенные на равном расстоянии градации шкалы, такчто градации „А" соответствует максимально благожелательное отношение к Х(объекту установки), а „К" — максимально неблагожелательное, негативноеотношение»). Каждое из утверждений списка печатается на отдельной карточке,которые и раздаются «судьям» (в конструировании шкалы установок по отношению кцеркви участвовало 300 таких экспертов). Задача «судей» заключается в том,чтобы разложить все 100—120 суждений по 11 рубрикам соответственно степенивыраженного в них благожелательного или неблагожелательного отношения к объектуостановки.
Подчеркнем, что «судей» не просят высказать их собственное мнение,они должны лишь рассортировать высказывания.
Шкальное значение (балл) каждого из высказываний определяетсяраспределением оценок «судей», поэтому началом следующего этапа (собственнопостроения шкалы) является подсчет процента экспертов, положивших высказываниев определенную стопку. Далее подсчитывается суммарный (кумулятивный) процент«судей», отнесших суждение к данной градации и предшествующим градациям.Терстоун присваивал использовавшимся градациям числовые значения от 1 (градация«А», максимально благожелательное отношение к церкви) до 11 (градация «К»).Проиллюстрируем дальнейшее на примере гипотетического суждения N, данные длякоторого представлены в таблице 1.
Таблица.1
Распределение «судейских» оценок для суждения NГрадация (числовое значение) «А» (1) «В» (2) «С» (3) «D» (4) «Е» (5) «F» (6) «G» (7) «Н» (8) «I» (9) «J» (10) «K» (11) Процент судей, отнесших суждение к данной градации 1 2 2 1 3 33 34 12 7 3 2 Кумулятивный процент 1 3 5 6 9 42 76 88 95 98 100
Распределение кумулятивных (накопленных) процентов позволяетвычислить значения медианы и междуквартильного размаха. Медиана, или процентиль50 в распределении накопленных частот, — это такое значение на шкале «А» — «К»,относительно которого половина судей дала большие, а другая половина — меньшиеоценки данного утверждения. Медиана, таким образом, делит пополам упорядоченноемножество значений признака. Вычислить медиану мы можем по следующей формуле:
/>
В методе Терстоуна ширина интервала между соседними численнымиградациями по определению равна 1 (равнокажущиеся интервалы). В используемомнами примере границами интервала, где расположена медиана (процентиль 50),являются градации «F» и «G» (см. табл. 1). Фактической нижней границейинтервала медианы будет значение 6,5, отсюда:
/>
Значение медианы и принимается за шкальный балл («цену») суждения.Для гипотетического суждения N в нашем примере он оказался равен 6,7. (Впринципе более простым является графический метод нахождения медианы. Для этогона миллиметровой бумаге строится кривая накопленных процентов — огива,позволяющая легко найти числовое значение, соответствующее процентилю 50.)
Ясно, однако, что не все суждения, получившие оценку «судей», вравной мере пригодны для шкалы: некоторые из суждений получат весьмасогласованные и единодушные оценки экспертов, тогда как другие вызовут разнобойво мнениях. Для оценки внутренней согласованности отдельных высказываний шкалыТерстоун применил меру разброса судейских оценок — междуквартильный размах.(Здесь снова вместо распределения абсолютных частот экспертных оценокиспользуется распределение процентилей, т. е. накопленные частоты выражают вкумулятивных процентах, что позволяет сравнивать выборки разного объема.)Междуквартильный размах — это расстояние между первым и третьим квартилемраспределения. Первый квартиль (Q1) задается точкой на оси, докоторой лежит 25% полученных оценок суждения, а третий ((Q3) —точкой, выше которой лежит 25% оценок. (Легко видеть, что второму квартилюсоответствует медиана.) Для вычисления междуквартильного размаха (Q3 ¾ Q1) сначалаустанавливаются значения, соответствующие первому и третьему квартилямраспределения. Для этого используются формулы, аналогичные формуле для медианы,с соответствующими поправками: берется фактическая нижняя граница интерваласоответствующего квартиля, кумулятивный процент для нижней границы интерваладанного квартиля и т. д. Так, для первого квартиля формула подсчета такова:
/>
Для нашего примера с суждением N:
/>
Читатель может самостоятельно выписать аналогичную формулу длятретьего квартиля (75 процентиль), произвести необходимые подсчеты и убедиться,что для вымышленного суждения N междуквартильный размах (Q3 ¾ Q1) составит1,7. Те суждения, для которых разброс оценок, измеренный через междуквартильныйразмах, оказывается слишком велик, исключаются из шкалы Терстоуна. Предполагается,что высказывание, получившее столь разные оценки, воспринимается слишкомнеоднозначно. Так, Терстоун исключил из первоначально предъявленного «судьям»списка 90 высказываний из 130. В результирующей шкале оставляют одно-двавысказывания для каждого деления шкалы, чтобы все градации предполагаемогоустановочного континуума оказались в равной мере представлены.
Если получившуюся шкалу предъявить теперь группе респондентов, тоиндивидуальным баллом каждого субъекта, выражающим меру «благожелательность» егоустановки, можно считать медиану (или средний балл) всех суждений, с которымион согласился.
Многие критики шкалы Терстоуна указывали на возможность влияния наполучаемые результаты характеристик «судейской» группы и широты диапазонапредлагаемых суждений. Все же существуют веские основания считать, что такаяшкала обладает вполне удовлетворительной воспроизводимостью и в среднемдиапазоне дает уровень измерения, превосходящий ординальный (является такназываемой шкалой разностей). Удаление или прибавление пункта шкалы не меняетшкальных значений других пунктов-высказываний. Приведем некоторые примерывысказываний, включенных Терстоуном в окончательный вариант шкалы установок поотношению к церкви (в скобках указан шкальный балл суждения):
· «Я думаю, что церковь – это наиважнейшийсоциальный институт в современной Америке» (0,2);
· «Когда я нахожусь в храме, мне доставляетудовольствие наблюдать за службой, особенно если при этом звучит хорошая музыка»(4,0);
· «Я ощущаю потребность в какой-то религии, но ненахожу того, что мне нужно, ни в одной из существующих церквей» (6,1);
· «С моей точки зрения, церковь безнадежноустарела» (9,1).
В основе шкалы Гутмана также лежит идея кумулятивности: однивысказвания-пункты имеют большую «нагрузку» на одномерном континуумешкалируемой переменно-признака, другие – меньшую. Модель шкалирования,предложенная Гутманом, подразумевает, что в идеальном случае респондент,согласившийся с более «нагруженным» пунктом, согласится и со всеми менее«нагруженными». Таким образом, знание максимального шкального балла респондентапозволяет полностью воссоздать паттерн его ответов. Шкалируемаяпеременная-признак не обязательно является установкой, она можетхарактеризовать поведение: одна из первых гутмановских шкал, например,содержала пункты, описывающиен симптомы реактивного невроза, расстройства сна,тошнота, страх и т.п. В предложенной Гутманом процедуре обычно используетсясовокупность дихотомических вопросов, т.е. вопросов, на которые могут быть данылишь два ответа: “да” или “нет”, “согласен” или “не согласен”. Совокупностьвопросов или утверждений, составляющих гутмановскую шкалу, должна обладатьодним существенным свойством: вероятность положительного ответа монотонновозрастает с ростом значения шкалируемой (латентной) переменной. Отсюдаследует, что субъекты, имеющие больший шкальный балл, т.е. большее значениелатентной переменной, с большей вероятностью дают положительный ответ на каждыйотдельный вопрос. Это условие легко проиллюстрировать на примере следующихвопросов о росте (для простоты изложения предположим, что ошибка измеренияотсутствует, т.е. все респонденты знают и точно сообщают свой истинный рост):
1.Верно ли, что Ваш рост превышает 1,50 м?
2.Верно ли, что Ваш рост превышает 1,60 м?
3.Верно ли, что Ваш рост превышает 1,70 м?
Эти вопросы образуют идеальную гутмановскую шкалу: если ошибкаизмерения отсутствует, любой респондент, ответивший положительно на вопрос 3,дает положительный ответ и на вопросы 2 и 1. Вообще, зная максимальный баллреспондента, мы можем полностью воссоздать его паттерн ответов. Для вопросов оросте все возможные паттерны ответов (шкальные типы) приведены в табл. 2.
Таблица 2
Ответы на вопросы о росте для четырех гипотетических респондентов
Вопрос, № п/п
Респондент 1 2 3 А + + + Б + + ¾ В + ¾ ¾ Г ¾ ¾ ¾
Если респондентов и вопросы расположить на одной шкале латентнойпеременной (в данном случае, «роста»), то станет очевидным, что респондентыреагируют на вопросы в зависимости от своего ранга (положения) на этой жешкале: респондент данного роста, позитивно прореагировавший на некийвопрос-пункт, будет также позитивно реагировать на все пункты, имеющие болеенизкий ранг (в нашем примере, на все более «низкорослые» вопросы-пункты). Скажем,для примера с ростом совместное упорядочение вопросов и респондентов нагутмановской шкале могло бы выглядеть, как на рисунке 2./> /> /> /> /> /> /> /> /> /> /> /> />
Вопрос 1
Вопрос 2
Вопрос 3 /> /> /> /> /> /> /> /> /> />
Низкий рост Высокий рост
/>
Рис. 2. Шкала Гутмана для трех вопросов о росте и четырехреспондентов
Легко видеть, что в нашем примере самыми «популярными» (имеющиминаибольшую частоту положительных ответов) будут менее «нагруженные» пошкалируемой переменной вопросы. С другой стороны, большее число положительныхответов будет у тех респондентов, для которых значение шкалируемой переменнойвыше.
Для того чтобы определить, является ли данная совокупностьвопросов шкалируемой, т.е. дает ли она хорошее приближение к идеальной моделишкалирования по Гутману, нужно, во-первых, убедиться, что вопросы по своемусмыслу могут соответствовать вышеописанному условию монотонного возрастаниявероятности положительного ответа. Так, например, рассмотренные выше вопросышкалы социальной дистанции Богардуса теоретически могут составить гутмановскуюшкалу. Однако так называемые точечные вопросы ¾ например: «Верно ли, чтоВаш рост равен 1,65 м?» ¾ наверняка не могут быть использованы в рамкахрассматриваемой шкальной модели. Дальнейшая процедура построения гутмановскойшкалы заключается в проверке соответствия реальных данных модели совершеннойшкалы Гутмана и ее лучше рассмотреть на конкретном примере.
Допустим, некий социолог пытается измерить переменную«благопристойность», которую он почему-то связывает со стремлением следоватьнормативным предписаниям, регулирующим публичное (т. е. безличное) социальноеобщение. Среди использованных им вопросов есть три следующих:
1. Вы обычно стучите в дверь кабинета или комнаты, прежде чемвойти (верно, неверно).
2. В публичных обсуждениях или дискуссиях Вы высказываете своемнение лишь тогда, когда Вас прямо об этом попросят (верно, неверно).
3. Вы предпочтете промолчать, если Вам покажется, что Вашесправедливое и существенное замечание может вызвать раздражение у окружающих(верно, неверно).
Конечно, можно предположить, что некоторые из изобретенныхисследователем вопросов отражают скорее «социальную тревожность» или«конформизм», но в данном случае мы будем руководствоваться тем, что идеальныхиндикаторов не бывает: бывают индикаторы, дающие лучшее или худшее приближениек идеальной шкале для реальных данных.
Итак, социологу предстоит проверить, насколько полученное имэмпирическое распределение ответов соответствует тем теоретически возможнымпаттернам ответов на три вопроса, которые в таблице 6.2 образуют безупречный«параллелограмм», характерный для идеальной гутмановской шкалы. Для случая трехвопросов возможны четыре «правильных» паттерна ответов, обозначаемых обычно какшкольные типы ответов:
социологический индекс шкала
1. + + +
2. + + ¾
3. + ¾ ¾
4. ¾ — —
Предположим, что наш социолог получил следующую картинураспределения шкальных типов (см. табл. 3).
Таблица 3Распределениеответов для шкальных типов
Вопросы
Ответы Вопрос 1 («стук в дверь») Вопрос 2 («публичная дискуссия») Вопрос 3 («опасение вызвать раздражение») Число случаев, N
Паттерн ответа
(«+» — «верно»,
«—» — «неверно»): + + + 30 + + — 50 + — — 45 — — — 10 Всего 135
Судя по таблице 6.3, априорное упорядочение вопросов совпало среальным: самый «легкий» первый вопрос оказался и самым популярным, тогда какна самый «тяжелый» вопрос шкалы положительно ответили лишь 30 опрошенных:нежелание высказывать свою точку зрения требует значительно большего количества«благопристойности», чем привычка стучать в дверь.
Если бы использованный нами исходный порядок вопросов не совпал быс их реальным ранжированием по числу позитивных ответов, то это само по себе недоказывало бы «нешкалируемости» данной совокупности пунктов: для того, чтобыполучить столь же красивую «гутмановскую» картину распределения ответов, как впредыдущей таблице 6.2, было бы достаточно просто переставить столбцы таблицытак, чтобы первым оказался самый популярный вопрос с наибольшим числомположительных ответов и т. д. (Упорядоченную таким образом таблицу обычноназывают шкалограммной матрицей, или шкалограммой.)
Реальной проблемой в нашем примере, как и в большинстве случаевпостроения гутмановской шкалы, стало наличие так называемых нешкальных типов,т. е. таких паттернов ответа, которые попросту не укладываются в логикуодномерной модели с монотонно возрастающей вероятностью ответа. Примером«нешкального» паттерна мог бы быть положительный ответ на третий вопрос приотрицательных ответах на первые два вопроса (— — +). То обстоятельство, чтонекий респондент, бесцеремонно входящий в чужую дверь без стука, боится открытовыразить свое мнение, может быть и случайной ошибкой, и результатом влияниякакой-то посторонней переменной: возможно, отвечая на третий вопрос, этотчеловек думал не о хороших манерах, а о том, что высказывать свое мнениеоткрыто в его привычной среде «невыгодно», недальновидно и т. п. Для того чтобыпроверить шкальную гипотезу о том, что данная совокупность вопросов даетхорошее приближение к гутмановской шкале, нам следует трактовать «нешкальные»типы ответа как ошибки и оценить, насколько велико отклонение от идеальноймодели. Пусть наш исследователь получил следующее распределение «нешкальных»типов (см. табл. 4).
Разумно предположить, что «нешкальный» тип — — + можно отнести кшкальному типу — — — с одной ошибкой. Второй «нешкальный» паттерн ответа — + +можно рассматривать как отклонение от школьного типа + + + также с однойошибкой (если бы мы отнесли этот «нешкальный» паттерн к типу — — —, то ошибокбыло бы две, а не одна). Существуют разные способы оценки приемлемостинаблюдаемых отклонений от совершенной шкалы, содержащей лишь шкальные паттерныответа. Здесь мы воспользуемся самым простым и грубым, рассчитав коэффициентвоспроизводимости шкалы Rep (от англ. reproducibility) по следующей формуле:
/>
В нашем примере мы, основываясь на идеальной модели шкалы, можемвоспроизвести (предсказать) по три ответа для 143 респондентов. Всего мысделаем 429 предсказаний для отдельных ответов. Из них 8 ответов окажутсяошибочными (каждая ошибка будет отличаться от ожидаемого ответа только на 1балл). Коэффициент воспроизводимости составит, таким образом, 0,98 (или 98%).
Таблица 4 Распределениеответов для «нешкальных» типов
Вопросы
Ответы
Вопрос 1
(«стук в
дверь»)
Вопрос 2
(«публичная
дискуссия»)
Вопрос 3
(«опасение
вызвать
раздражение»)
Число
случаев Паттерн ответа: — — + 3 — + — 5 Всего 8
На практике принято считать приемлемым любое значение коэффициентавоспроизводимости, которое превышает 0,90 (90%). Очевидно, что 100%-йвоспроизводимостью может обладать лишь совершенная гутмановская шкала.
Если полученное значение коэффициента воспроизводимостипревосходит заданный порог, данная совокупность вопросов может использоваться вкачестве шкалы Гутмана. При этом вопросам присваиваются шкальные значения,отражающие их ранжирование по шкале (скажем, 1, 2 и 3), так что самый «легкий»вопрос получает самый низкий балл. Респонденты получают индивидуальный балл,соответствующий их шкальным типам (число положительных ответов либо суммарныйбалл).
Следует помнить о том, что полученная шкала отражает наличиеопределенной упорядоченности в той матрице реальных данных, для которыхпроверялась гутмановская модель. Иными словами, вывод о том, что даннаясовокупность вопросов составляет шкалу Гутмана, верен для данной выборки и дляданной серии наблюдений. Перенос шкалы с одной популяции на другую требуетновых данных и нового обоснования.
Мы рассмотрели лишь некоторые, относительно простые, методыконструирования индексов и шкал в социологии. Проанализированные нами примерыподтверждают полезность шкал для повышения качества социологического измерения(т. е. его надежности и валидности) и для экономного представления эмпирическойинформации, получаемой в ходе исследования. Наконец, анализ моделей измерения,лежащих в основании любой шкалы, часто помогает прояснить природу теоретическихпонятий и взаимосвязей между ними. Еще одним шагом к содержательным иоснованным на реальных эмпирических наблюдениях выводам является анализ данных.
Библиографический список
1. АванесовВ.С. Тесты в социологическом исследовании. М.: Наука, 2010.
2. Грин Б.Ф.Измерение установки // Математические методы в современной буржуазнойсоциологии. М.: Прогресс, 2009.
3. Девятко И.Ф.Диагностическая процедура в социологии: очерк истории и теории. М.: Наука, 2008.
4. КлигерС.А., Косолапов М.С., Толстова Ю.Н. Шкалирование при сборе и анализесоциологической информации. М.: Наука, 2009.
5. ОсиповГ.В., Андреев Э.П. Методы измерения в социологии. М.: Наука, 2010.
6. ТолстоваЮ.Н. Логика математического анализа социологических данных. М.: Наука, 2009.
7. Ядов В.А.Социологическое исследование: методология, программа, методы. 2-е изд. М.:Наука, 2010. Гл. 3.