13. Стандартизация теста. Понятие о норме теста. Стандартизация теста


13. Стандартизация теста. Понятие о норме теста.

Стандартизация теста - это совокупность экспериментальных, методических и статистических процедур, обеспечивающих создание строго фиксированных компонентов теста. В частном случае под стандартизацией понимается сбор репрезентативных тестовых норм и построение стандартной шкалы тестовых баллов. Стандартизация позволяет сравнивать показатели, полученные одним испытуемым, с показателями в генеральной совокупности или соответствующих группах. Стандартизация важна, когда осуществляется сравнение показателей обследуемых.Три основных вида стандартизации первичных тестовых оценок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация.

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает 3 этапа. 1)создании единообразной процедуры тестирования. 2)создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. 3)определении норм выполнения теста.

Тестовые нормы - количествен­ные и качественные критерии оцен­ки результатов теста, позволяющие опре­делить уровень достижений или степень выраженности психологических свойств, которые являются объектами измерения. В качестве таких критериев могут выступать как статистические показатели выборки стан­дартизации, так и различные признаки-симптомы, свидетельствующие о том или ином уровне выраженности диагностиру­емых качеств. В психодиагностике наи­большее распространение получили количественные тестовые нормы, рассчитанные на основе определе­ния средних величин и дисперсии в вы­борке стандартизации.

В виде качественных тестовые нормы могут выс­тупить, например, стандартизированные наборы ква­лификационных требований к испытуемо­му, аналогичные шкалам умственного развития, либо специально разработан­ные для конкретного теста комплексы диагно­стических признаков.

14. Оценка типа распределения в процессе стандартизации теста

Оценка типа распределения — аналитико-статистическая процедура исследования основных характеристик эмпирического распределения (мер центральной тенденции, мер изменчивости, асимметрии, эксцесса кривой и некоторых других показателей).

О. т. р. предпринимают с целью проверки предположения о том, что анализируемое распределение соответствует теоретическому. Вопрос такого рода нередко решается в ходе стандартизации методики и разработки шкалы. Обычно в качестве теоретического распределения при сравнении с эмпирическим используется нормальное распределение, О. т. р. выступает в данном случае в форме проверки нормальности эмпирического распределения. Чтобы установить, подчиняется ли эмпирическое распределение изучаемой случайной величины нормальному закону, необходимо сопоставить известные исследователю сведения о свойствах этой величины и условиях ее изучения со свойствами функций нормального распределения. Сперва проводят качественное сопоставление, а затем количественное. Основой качественного сопоставления служит главное условие – действие на изучаемую случайную величину большого числа преимущественно независимых и примерно одинаковых случайных факторов. Если это условие, по мнению исследователя, выполняется, можно ожидать, что исследуемая величина распределена нормально.

Количественное сопоставление может включать ряд этапов. Первый — сравнение отдельных свойств эмпирического распределения со свойствами теоретического нормального распределения. Асимметрия и эксцесс нормального распределения равны нулю. Если хотя бы один из этих двух показателей проверяемого эмпирического распределения существенно отклоняется от данного значения, это означает аномальность оцениваемого распределения.

Второй этап проверки эмпирического распределения состоит в построении теоретической функции распределения по эмпирическому ряду в предположении, что он подчиняется нормальному закону. Именно это предположение и обосновывается при качественном и количественном (на первом этапе) сопоставлении свойств. Вычисление теоретических значений вероятностей, соответствующих эмпирическим частотам, в общем случае осуществляется по таблицам функций распределения. Сопоставление заканчивается сравнением фактических (полученных в опыте) и теоретических (вычисленных) вероятностей. Если различия малы или отсутствуют, можно считать, что изучаемая случайная величина распределяется нормально.

Подтверждение нормального закона данного распределения будет означать, что полученная эмпирическая кривая не требует нормализации; распределение можно рассматривать как репрезентативное по отношению к генеральной совокупности

15 Операции по анализу распределения тест. баллов, построению тест. норм и проверке их репрезент. Действия, которые послед-но должен произвести психолог при построении тест. норм: 1. Сформ. выборку стандартизации (случайную или стра­тифицированную по какому-л. параметру) из популяции, на которой предпол. применять тест. Провести на каждом ис­пытуемом тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внеш.событиями, происш. за время обслед). 2. Произвести группировку сырых баллов с учетом выбр. интервала квантования (интервала равнозначности). Интервал опр-ся величиной W/m, где W=xmax—хmax;m – кол-во интерва­лов равнозначности (градаций шкалы). 3. Построить распределение частот тест. баллов (для заданных интервалов равнозначности) в виде таблицы и соотв. графиков гистограммы и кумуляты. 4. Произвести расчет среднего арифм. значения и стандартного отклонения, а также асимметрии и эксцесса с пом. компьюте­ра. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить рез-ты проверки с визуальным анализом кривых распределения. 5. Произвести проверку нормальности одного из распределений с пом. критерия Колмогорова (при n<200 с пом. более мощ­ных критериев) или произвести процентильную нормализацию с пе­реводом в стандартную шкалу, а также линейную стандартизацию и сравнить их рез-ты (с точностью до целых значений стандарт­ных баллов). 6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщепле­нием выборки на две случайные половины. При совпадении норма­лизованных баллов для половины и для целой выборки можно счи­тать нормализованную шкалу устойчивой. 7. Проверить однородность распределения по отн. к варь­ированию заданного популяционного признака (пол, профессия и т.п.) с пом. критерия Колмогорова. Построить в совмещенных коор­динатах графики гистограммы и кумуляты для полной и частной вы­борок. При значимых различиях разбить выборку на разнородные подвыборки. 8. Построить таблицы процентильных и нормализованных тесто­вых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица. 9. Определить критич.точки (верхнюю и нижнюю) для до­верительных интервалов (на уровне Р<0,01) с учетом стандартной ошибки в определении среднего значения. 10. Обсудить конфигурацию получ. распределений с учетом предполагаемого механизма вып. того или иного теста. 11. В случае негативного рез-та: отсутствия устойчивых норм для шкалы с заданным числом градаций – осущ. обсле­д.более широкой выборки или отказаться от исп.данного теста.

studfiles.net

Стандартизация теста. Этапы стандартизации. Стандартные показатели. Статистические нормы.

Поиск Лекций

Стандартизация теста – это процесс унификации, регламентации, приведения к единым нормативам процедуры психодиагностики и тестовых показателей. При применении стандартизации осуществляется сопоставление экспериментальных данных, полученных при помощи методик различной размерности. В результате обработки тестовых показателей получают сырые баллы, которые переводятся в соответствии с законом нормального распределения.

Процедура стандартизации включает в себя три этапа:

Первый этапстандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1. условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2. Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте "10 слов" каждое слово должно предъявляться через определенный интервал времени в секундах.

3. Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

4. Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5. Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.

6. Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7. Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка "правильного ответа" и др.

8. Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этапстандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этапстандартизации психологического теста состоит в определении норм выполнения теста.

 

Стандартные показатели:

1. Первичнные (показатели, полученные после обработки данных выполнения респондентом тестовых заданий; «сырые баллы»)

2. Производные (показатели, полученные путем математической обработки первичных данных)

· Наиболее распространенным преобразование первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Процедура нормирования заключается в переходе к другим единицам измерения. В качестве функции нормирования обычно выступает Z-показатель(стандартный показатель), который выражает отклонение индивидуального результата Х в единицах, пропрорциональных стандартному отклонению.

· Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом средним значением для нормальной группы, а затем делят эту разность на δ нормативной выборки.

Статистические нормы:

Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования.

Статистические нормы

А. Статистические нормы. Граничные значения на шкале тестовых баллов, образованные на основе частотного распределения тестовых баллов в выборке стандартизации. Как правило, эти граничные значения отделяют от выборки фиксированный процент испытуемых: (дециль), 25 (квартиль), 50 (медиана). При нормальном распределении статистическая норма описывается с помощью параметров (среднее плюс/минус сигма, или стандартное отклонение). Статистические нормы служат принятию «сравнительный решения» и не дают информации для принятии «нормативных решений»

Б. Возрастные нормы – частные варианты психодиагностических норм, собранные для детей разного возраста.

В. Критериальныенормы - диагностические нормы, в которых задано соответствие между тестовыми баллами по шкале измеряемого свойства и уровнем критериального показателя. В случае критериального поведения критериальныенормы указывают на вероятность появления критериального поведения при данном значении тестового балла.

Г. Школьные нормы разрабатываются на основе тесов школьных достижений или тестов школьных способностей.

Д. Профессиональный нормы. Устанавливаются на основе тестов для различных профессиональных групп.

Е. Локальные нормы. Устанавливаются для узких категорий людей, отличающихся наличием общего признака – возраста, пола, географического района, социоэкономического статуса.

Ж. Национальные нормы. Разрабатываются для представителей данной нации или страны в целом.

 

poisk-ru.ru

Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах.

Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Однако репрезентативность выборки не зависит от ее объема. Например, для того чтобы получить нормативные показатели для всей популяции детей, обучающихся в начальной школе, потребуется выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы (смотрите лекции по SPSS).

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных («сырых») оценок. В случае линейного преобразования сохраняются все свойства исходного распределения «сырых» оценок, и такие показатели называются стандартными или z-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандартное отклонение нормативной группы. Формула имеет вид (смотрите лекции по SPSS).

Здесь необходимо сказать о том, что основной причиной преобразования первичных оценок в некоторую производную шкалу является желание получить показатели, которые сопоставимы между собой вне зависимости от того, по какому тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения «сырых» оценок, по которым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандартным показателям. Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нормальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нормализованного стандартного показателя. Эти показатели, как и линейно преобразованные, будут иметь среднее (X), равное 0, и стандартное отклонение (SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соответствующую среднему нормальной кривой, превосходя 50 % группы. В случае, если показатель равен —1, испытуемый превосходит примерно 16 % группы, а если + 1 — превосходит 84 % группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый «T-показатель» и в этом случае Т, равное 50, соответствует среднему, равному 60 — превышает среднее на одно стандартное отклонение и т. д. С другими, не менее популярными нелинейными преобразованиями «сырых» показателей теста, можно ознакомиться в соответствующей литературе.

Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предположить, что процесс их старения будет ускоряться. Для наглядности этапы конструирования теста представлены на рис ниже.

Пример из практики: определение надежности опросника 16 PF Кеттелла. Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) относится к наиболее распространенным психодиагностическим инструментам и не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непрофессионально, с нарушением всех норм и правил, предъявляемых к психологическим тестам.

Кроме различных переводов опросника, которые существенно отличаются один от другого, в русскоязычной литературе часто встречаются и различные

7

Рис. Этапы конструирования теста

«ключи» к его факторам. Опубликованные в многочисленных сборниках и брошюрах варианты опросника не защищены (!) от ошибок и произвольного вмешательства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отечественных зыборках, то непонятно, какого рода результаты получали его многочисленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ставилась задача проверки факторной структуры 16PF на. национальных выборках: это статьи В. М. Русалова и О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похилько и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множеством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощью опросника 16PF измеряется нечто, имеющее неясное отношение к факторам личности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст исследуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или среднее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

Как известно, точность измерения с помощью психодиагностического инструмента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально полученные нами, были оценены по авторским ключам на внутреннюю согласованность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле (смотрите лекции по SPSS).

docpsy.ru

3.9. Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах.Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Однако репрезентативность выборки не зависит от ее объема. Например, для того чтобы получить нормативные показатели для всей популяции детей, обучающихся в начальной школе, потребуется выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:

,

где SD – стандартное отклонение; X2 – результат всего опросника всех испытуемых; п – количество испытуемых; Σ – сумма.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных («сырых») оценок. В случае линейного преобразования сохраняются все свойства исходного распределения «сырых» оценок, и такие показатели называются стандартными или z-показателями. Для вычисления z-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандартное отклонение нормативной группы. Формула имеет вид:

.

Здесь необходимо сказать о том, что основной причиной преобразования первичных оценок в некоторую производную шкалу является желание получить показатели, которые сопоставимы между собой вне зависимости от того, по какому тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения «сырых» оценок, по которым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандартным показателям. Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нормальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нормализованного стандартного показателя. Эти показатели, как и линейно преобразованные, будут иметь среднее (), равное 0, и стандартное отклонение(SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соответствующую среднему нормальной кривой, превосходя 50 % группы. В случае, если показатель равен –1, испытуемый превосходит примерно 16 % группы, а если +1 – превосходит 84% группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый «Т-показатель» и в этом случае Т, равное 50, соответствует среднему, равному 60 – превышает среднее на одно стандартное отклонение и т. д. С другими, не менее популярными нелинейными преобразованиями «сырых» показателей теста, можно ознакомиться в соответствующей литературе*.

* См., напр., БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. – СПб.: Питер, 1999, а также Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер. с англ. – М.: Прогресс, 1976.

Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предположить, что процесс их старения будет ускоряться. Для наглядности этапы конструирования теста представлены на рис. 3.1.

Рис. 3.1. Этапы конструирования теста

Пример из практики: определение надежности опросника 16PF Keттeллa. Личностный опросник Раймонда Кеттелла 16 PF (16 личностных факторов) относится к наиболее распространенным психодиагностическим инструментам и не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непрофессионально, с нарушением всех норм и правил, предъявляемых к психологическим тестам.

Кроме различных переводов опросника, которые существенно отличаются один от другого, в русскоязычной литературе часто встречаются и различные «ключи» к его факторам. Опубликованные в многочисленных сборниках и брошюрах варианты опросника не защищены (!) от ошибок и произвольного вмешательства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отечественных выборках, то непонятно, какого рода результаты получали его многочисленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ставилась задача проверки факторной структуры 16РF на национальных выборках: это статьи В. М. Русалова и О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похилько и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множеством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощью опросника 16PF измеряется нечто, имеющее неясное отношение к факторам личности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников*, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16 PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст исследуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или среднее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

* Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталию Духневичу.

Как известно, точность измерения с помощью психодиагностического инструмента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально полученные нами, были оценены по авторским ключам на внутреннюю согласованность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:

,

где α – коэффициент Кронбаха; r – количество заданий теста; – дисперсия поj-му пункту теста; – дисперсия суммарных баллов по всему тесту.

В табл. 3.6 содержатся данные о внутренней согласованности факторов личности, полученные по авторским «ключам» (приведено буквенное обозначение фактора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетворительно для большинства факторов. А фактор N вообще измеряет нечто, не имеющее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор F (сургенция–десургенция) и фактор H пармия–тректия (смелость–робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности–согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или существования известных культурных различий.

Таблица 3.6

Данные о внутренней согласованности по факторам

личности, выделенным Кеттеллом

Обозначение фактора

Коэффициент Кронбаха

1

А

0,335699

2

С

0,293849

3

Е

0,210113

4

F

0,640528

5

G

0,403974

6

Н

0,727452

7

I

0,521693

8

L

0,172452

9

М

0,138720

10

N

0,005232

11

О

0,443746

12

Q1

0,002209

13

Q2

0,379002

14

Q3

0,452439

15

Q4

0,486635

Для того чтобы выявить, что же именно стоит за данными, получаемыми с помощью 16PF, мы использовали факторный анализ. Факторы извлекались методом главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений – scree-plot (рис. 3.2). На так называемом «графике осыпи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно расположены так называемые «шумящие» факторы. Этот критерий позволяет выделить гораздо меньшее число факторов, чем применяемый большинством пользователей статистических пакетов метод Кайзера, базирующийся на величине собственного значения фактора. Вращение факторов производилось методом VARIMAXc нормализацией по Кайзеру. Коэффициенты факторных баллов были вычислены методом регрессии. Статистическая обработка производилась с помощью программы SPSS для Windows (версия 5.0). В качестве значимых рассматривались нагрузки заданий, которые по абсолютной величине превосходили 0,3. Данная граница была принята по следующим соображениям: поскольку нагрузка представляет собой коэффициент корреляции задания и фактора, при данном его объеме эта величина является значимой и позволяет объяснить до 10 % вариации задания. Как показывает опыт, установление более высокой границы приводит к резкому падению согласованности шкалы, особенно при кросс-валидизации. При этом заметим, что небольшое количество наших испытуемых, конечно, не репрезентирует генеральную совокупность. Кроме того, нами не проводилось исследование стойкости факторного решения, полученного в исследовании (кросс-валидизация). Наконец, задания по фактору В, а также задания 1,2 и 187 были исключены из анализа.

Рис. 3.2. Диаграмма собственных значений, на основе которой принималось решение о количестве факторов

Обычно на таком графике кривая имеет две точки изгиба. Для интерпретации оставляют те факторы, которые размещены перед вторым изгибом кривой. Получается что в нашем случае следует оставить 7 факторов. Интересно, что приблизительно такое же количество факторов обнаруживается в большинстве исследований структуры личностной лексики в разных языках и совокупностей задании личностных опросников. Выделенные факторы были интерпретированы следующим образом.

1. Тревожность – эмоциональная стабильность.

2. Энергичность, активность – пассивность.

3. Настойчивость, уверенность в себе - покорность, подверженность влиянию.

4. Сила Сверх-Я - слабость Сверх-Я (данный фактор соответствует фактору G Кеттелла).

5. Обособленность - зависимость от группы (этот фактор соответствует фактору Q2 Кеттелла).

6. Рациональность, практичность - мечтательность.

7. Импульсивность - сдержанность, самоконтроль.

Интересным представляется тот факт, что лишь три отмеченных фактора соответствуют тем, которые выделены Кеттелом. Это, на наш взгляд, свидетельствует о том, что данные факторы (G, Q3 и Q2) настолько устойчивые характерологические конструкты, что имеет сходство в англоязычной и русскоязычной культурах. Также заслуживает внимание тот факт, что большинство факторов соответствуют факторам, полученным в других работах (Виноградов, 1997). Это еще раз подтверждает надежность полученных результатов.

Нагрузки заданий опросника по семи факторам приведены в табл. 3.7 (включены нагрузки, абсолютное значение которых не менее 0,3).

Таблица 3.7

Выделенные факторы и вопросы, их определяющие

Фактор

Вопросы с ключевыми ответами a

Вопросы с ключевыми ответами b

1.

Тревожность-эмоциональная стабильность

18,32,35,43,49,61,74, 85,86,94,99, 118,123, 124, 145, 149, 154, 161, 164, 170, 174

25, 44, 62, 93, 100, 179

2.

Энергичность, активность-пассивность

10,33,97, 110,111, 113, 135, 156, 180, 182, 184, 186

27,35,61,72,82, 106

3.

Настойчивость, уверенность в себе– покорность, подверженность влиянию

5, 15, 20, 23, 47, 65, 90, 107,119, 131, 142,160,173

4,17,41,45,59, 81,172,175

4.

Сила Сверх-Я– Слабость Сверх-Я

12,40,48,63,68,73,75, 98, 144, 169, 176, 185

9,84

5.

Обособленность-зависимость от группы

56,71,79,88,121,146,171

34, 122

6.

Рациональность, практичность-мечтательность

11,26,62,72,87, 157,158, 185

23, 36, 37, 58, 83, 84,112,116,132, 135, 138, 163

7.

Импульсивность-сдержанность

7, 24, 29, 47, 66, 67, 69, 80, 133, 136, 154, 183

37, 104, 138, 139

Вопросы, «работающие» на выделенные факторы, были подвергнуты статистической обработке с последующим анализом полученных показателей внутренней согласованности. Результаты представлены в табл. 3.8.

Таблица 3.8

Значение Коэффициента Кронбаха для выделенных факторов

Фактор

α

1.

Тревожность – эмоциональная стабильность

0,7878

2.

Энергичность, активность – пассивность

0,7535

3.

Настойчивость, уверенность в себе – покорность, подверженность влиянию

0,8117

4.

Сила «Сверх-Я» – Слабость «Сверх-Я»

0,7203

5.

Обособленность – зависимость от группы

0,6726

6.

Рациональность, практичность – мечтательность

0 7769

7.

Импульсивность – сдержанность

0,6797

Нетрудно убедиться, что значения коэффициента надежности–согласованности Кронбаха достаточно велики для выделенных факторов, а это свидетельствует об однородности построенных шкал. Поскольку не существует формальных способов проверки гипотезы о равенстве нулю коэффициента Кронбаха, в своей работе мы использовали его лишь в качестве дескриптивной меры согласованности заданий исходных и полученных с помощью факторного анализа шкал. Напомним, что для шкал опросников наиболее характерны значения коэффициента Кронбаха в диапазоне 0,6-0,8.

На завершающем этапе исследования нами были рассчитаны среднее и стандартное отклонения для новых и оригинальных ключей* (табл. 3.9, 3.10).

* Для получения стандартного показателя из «сырого» балла вычитается среднее и делится на стандартное отклонение по шкале. Этот показатель в будущем будет использоваться для того, чтобы привести полученные данные к стандартной шкале. В нашем случае это шкала стенов (от 1 до 10, со средним 5,5 и стандартным отклонением 2).

Таблица 3.9

Нормативные данные для выборки из 227 испытуемых (новые «ключи»)

Название фактора

Среднее отклонение

Стандартное отклонение

Тревожность – эмоциональная стабильность

2,1507

0,8355

Энергичность, активность – пассивность

1,5707

0,7552

Настойчивость, уверенность в себе – покорность, подверженность влиянию

1,6391

0,8400

Сила «Сверх-Я» – Слабость «Сверх-Я»

1,4560

0,7097

Обособленность – зависимость от группы

2,0528

0,8491

Рациональность, практичность – мечтательность

2,1188

0,8375

Импульсивность – сдержанность

2,1360

0,8490

Таблица 3.10

Нормативные данные для выборки из 227 испытуемых (оригинальные «ключи»)

Фактор

Среднее отклонение

Стандартное отклонение

А

1,5606

0,7704

В

1,6828

0,6108

С

1,8137

0,7763

Е

1,9089

0,7897

F

1,9121

0,8106

G

1,5845

0,7426

Н

1,6498

0,7799

I

1,7908

0,8645

L

2,0663

0,7904

М

2,0976

0,8572

N

1,9311

0,8333

O

2,1389

0,8401

Q1

1,9105

0,8567

Q2

2,0923

0,8941

Q3

1,6092

0,7500

Q4

2,1361

0,8414

Результаты проведенного исследования позволили ответить на вопрос о том, насколько мы точны в измерении факторов, постулированных Кеттеллом. Предварительные нормативные данные могут служить ориентиром для заключений об относительной степени выраженности у испытуемого некоторых личностных черт. Памятуя об ограниченности выборки, отметим, что новые «ключи» и нормы следует использовать с известной осторожностью.

studfiles.net

3.9. Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стан­дартизированы, а это позволяет сравнить показатели, полученные одним испы­туемым, с таковыми в генеральной совокупности или соответствующих группах

168 Глава 3. Психометрические основы психодиагностики: основные этапы...

Тем самым достигается адекватная интерпретация показателя отдельного испы­туемого. Таким образом, стандартизация теста наиболее важна в тех случаях, ког­да осуществляется сравнение показателей обследуемых. При этом вводится поня­тие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности до­статочной будет выборка из 500 испытуемых. Однако репрезентативность выбор­ки не зависит от ее объема. Например, для того чтобы получить нормативные по­казатели для всей популяции детей, обучающихся в начальной школе, потребует­ся выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандар­тизации или стратифицировать группу стандартизации относительно таких пара­метров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обя­зательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:

я(я-1)

где SD — стандартное отклонение; X2 — результат всего опросника всех испытуе­мых; п — количество испытуемых; 2 — сумма.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъ­являемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получа­ют двумя путями: линейным и нелинейным преобразованием первичных («сы­рых») оценок. В случае линейного преобразования сохраняются все свойства ис­ходного распределения «сырых» оценок, и такие показатели называются стандарт­ными или г-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандарт­ное отклонение нормативной группы. Формула имеет вид:

Здесь необходимо сказать о том, что основной причиной преобразования пер­вичных оценок в некоторую производную шкалу является желание получить по­казатели, которые сопоставимы между собой вне зависимости от того, по какому

3.9. Стандартизация теста

158

сту они получены. Линейное преобразование позволяет получить показателе |опоставимые лишь в том случае, когда распределения «сырых» оценок, по кото 5ым они рассчитываются, имеют примерно одинаковую форму. Для того чтобь сопоставлять показатели, полученные на основе распределений разной формы прибегают к нелинейному преобразованию, или к нормализованным стандарт ным показателям. Процедура нелинейного преобразования достаточно проста i описана в многочисленных руководствах по математической статистике. Такж показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводит­ся процент случаев, приходящихся на участки, которые отстоят от среднего нор мальной кривой на некоторое число единиц стандартного отклонения. Сначал; определяют процент лиц, чьи показатели превышают каждую «сырую» оценку а затем по этому проценту в таблице отыскивают соответствующее значение нор мализованного стандартного показателя. Эти показатели, как и линейно преоб разованные, будут иметь среднее (X), равное 0, и стандартное отклонение (5D) равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соот ветствующую среднему нормальной кривой, превосходя 50 % группы. В случае если показатель равен —1, испытуемый превосходит примерно 16 % группы, а ее ли +1 — превосходит 84 % группы. Нормализованным стандартным показателя!^ можно придать любую удобную форму, например, умножив его на 10 и прибави произведение к 50, получаем так называемый «Г-показатель» и в этом случае 7 равное 50, соответствует среднему, равному 60 — превышает среднее на одно стан дартное отклонение и т. д. С другими, не менее популярными нелинейными пре образованиями «сырых» показателей теста, можно ознакомиться в соответствую щей литературе1.

Созданием стандартизованного теста и его публикацией обычно завершаете работа психолога, однако следует помнить и о том, что с течением времени не обходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллект; (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предполо жить, что процесс их старения будет ускоряться. Для наглядности этапы конст руирования теста представлены на рис. 3.1.

Пример из практики: определение надежности опросника 16 PFKerrejiJia Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) от носится к наиболее распространённым психодиагностическим инструментам и hi нуждается в специальном представлении. Уже без малого 50 лет психологи всеп мира используют его для решения разнообразных прикладных и научных задач Однако как в бывшем СССР, так и ныне во вновь образованных странах это-опросник, несмотря на достаточно большую популярность, используется непро фессионально, с нарушением всех норм и правил, предъявляемых к психологиче ским тестам.

Кроме различных переводов опросника, которые существенно отличаюто один от другого, в русскоязычной литературе часто встречаются и различны!

1 См., напр., БурлачукЛ, Ф., Морозов С. М. Словарь-справочник по психодиагностике. — СПб.: Питер 1999, а также Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер с англ. — М.: Прогресс, 1976.

170 Глава 3. Психометрические основы психодиагностики: основные этапы.

Определение теста и выбор метода шкалирования

Генерирование заданий для теста

Дотестовые задания

Конструирование шкалы

Пилотажное тестирование

Стандартизация теста

Сбор нормативных показателей

Публикация руководства

Пересмотры теста с течением времени

Рис. 3.1. Этапы конструирования теста

•«ключи» к его факторам. Опубликованные в многочисленных сборниках и бро­шюрах варианты опросника не защищены (!) от ошибок и произвольного вмеша­тельства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отече­ственных выборках, то непонятно, какого рода результаты получали его многочи­сленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ста­вилась задача проверки факторной структуры 16PF на национальных выборках:

3.9. Стандартизация теста 171

это статьи В. М. Русаловаи О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль-ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множе­ством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощь» опросника 16Р77измеряется нечто, имеющее неясное отношение к факторам лич­ности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст иссле­дуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или сред­нее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

Как известно, точность измерения с помощью психодиагностического инстру­мента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально по­лученные нами, были оценены по авторским ключам на внутреннюю согласован­ность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:

г

ос = -

г-\

1--

S

X

\ /

где а — коэффициент Кронбаха; г — количество заданий теста; S ? — дисперсия по ;'-му пункту теста; 5, — дисперсия суммарных баллов по всему тесту.

В табл. 3.6 содержатся данные о внутренней согласованности факторов лично­сти, полученные по авторским «ключам» (приведено буквенное обозначение фак­тора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетвори­тельно для большинства факторов. А фактор N вообще измеряет нечто, не имею­щее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор /-"(сургенция—десургенция) и фактор Я пармия—тректия (сме­лость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или суще­ствования известных культурных различий.

Для того чтобы выявить, что же именно стоит за данными, получаемыми с по­мощью 16PF, мы использовали факторный анализ. Факторы извлекались методом

1 Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталик Духневичу.

172 Глава 3. Психометрические основы психодиагностики: основные этапы..

Таблица 3.6

Данные о внутренней согласованности

по факторам личности, выделенным Кеттеллом

Обозначение фактора

Коэффициент Кронбаха

1

А

0,335699

2

С

0,293849

3

Е

0,210113

4

F

0,640528

5

G

0,403974

6

Н

0,727452

7

I

0,521693

8

L

0,172452

9

М

0,138720

10

N

0,005232

И

0

0,443746

12

а

0,002209

13

а

0,379002

14

а

0,452439

15

а

0,486635

I

главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений — scree-plot (рис. 3.2). На так называемом «графике осы­пи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно рас­положены так называемые «шумящие» факторы. Этот критерий позволяет выде-

1 2345678 9101112131415161718192021 Номер собственного значения

Рис. 3.2. Диаграмма собственных значений, на основе которой принималось решение о количестве факторов

studfiles.net

3.9. Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах

168 Глава 3. Психометрические основы психодиагностики: основные этапы...

Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Однако репрезентативность выборки не зависит от ее объема. Например, для того чтобы получить нормативные показатели для всей популяции детей, обучающихся в начальной школе, потребуется выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:

я(я-1)

где SD — стандартное отклонение; X2 — результат всего опросника всех испытуемых; п — количество испытуемых; 2 — сумма.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных («сырых») оценок. В случае линейного преобразования сохраняются все свойства исходного распределения «сырых» оценок, и такие показатели называются стандартными или г-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандартное отклонение нормативной группы. Формула имеет вид:

Здесь необходимо сказать о том, что основной причиной преобразования первичных оценок в некоторую производную шкалу является желание получить показатели, которые сопоставимы между собой вне зависимости от того, по какому

3.9. Стандартизация теста

158

сту они получены. Линейное преобразование позволяет получить показателе |опоставимые лишь в том случае, когда распределения «сырых» оценок, по кото 5ым они рассчитываются, имеют примерно одинаковую форму. Для того чтобь сопоставлять показатели, полученные на основе распределений разной формы прибегают к нелинейному преобразованию, или к нормализованным стандарт ным показателям. Процедура нелинейного преобразования достаточно проста i описана в многочисленных руководствах по математической статистике. Такж показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нор мальной кривой на некоторое число единиц стандартного отклонения. Сначал; определяют процент лиц, чьи показатели превышают каждую «сырую» оценку а затем по этому проценту в таблице отыскивают соответствующее значение нор мализованного стандартного показателя. Эти показатели, как и линейно преоб разованные, будут иметь среднее (X), равное 0, и стандартное отклонение (5D) равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соот ветствующую среднему нормальной кривой, превосходя 50 % группы. В случае если показатель равен —1, испытуемый превосходит примерно 16 % группы, а ее ли +1 — превосходит 84 % группы. Нормализованным стандартным показателя!^ можно придать любую удобную форму, например, умножив его на 10 и прибави произведение к 50, получаем так называемый «Г-показатель» и в этом случае 7 равное 50, соответствует среднему, равному 60 — превышает среднее на одно стан дартное отклонение и т. д. С другими, не менее популярными нелинейными пре образованиями «сырых» показателей теста, можно ознакомиться в соответствую щей литературе1.

Созданием стандартизованного теста и его публикацией обычно завершаете работа психолога, однако следует помнить и о том, что с течением времени не обходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллект; (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предполо жить, что процесс их старения будет ускоряться. Для наглядности этапы конст руирования теста представлены на рис. 3.1.

Пример из практики: определение надежности опросника 16 PFKerrejiJia Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) от носится к наиболее распространённым психодиагностическим инструментам и hi нуждается в специальном представлении. Уже без малого 50 лет психологи всеп мира используют его для решения разнообразных прикладных и научных задач Однако как в бывшем СССР, так и ныне во вновь образованных странах это-опросник, несмотря на достаточно большую популярность, используется непро фессионально, с нарушением всех норм и правил, предъявляемых к психологиче ским тестам.

Кроме различных переводов опросника, которые существенно отличаюто один от другого, в русскоязычной литературе часто встречаются и различны!

1 См., напр., БурлачукЛ, Ф., Морозов С. М. Словарь-справочник по психодиагностике. — СПб.: Питер 1999, а также Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер с англ. — М.: Прогресс, 1976.

170 Глава 3. Психометрические основы психодиагностики: основные этапы.

Определение теста и выбор метода шкалирования

Генерирование заданий для теста

Дотестовые задания

Конструирование шкалы

Пилотажное тестирование

Стандартизация теста

Сбор нормативных показателей

Публикация руководства

Пересмотры теста с течением времени

Рис. 3.1. Этапы конструирования теста

•«ключи» к его факторам. Опубликованные в многочисленных сборниках и брошюрах варианты опросника не защищены (!) от ошибок и произвольного вмешательства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отечественных выборках, то непонятно, какого рода результаты получали его многочисленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ставилась задача проверки факторной структуры 16PF на национальных выборках:

3.9. Стандартизация теста 171

это статьи В. М. Русаловаи О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль-ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множеством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощь» опросника 16Р77измеряется нечто, имеющее неясное отношение к факторам личности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст исследуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или среднее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

Как известно, точность измерения с помощью психодиагностического инструмента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально полученные нами, были оценены по авторским ключам на внутреннюю согласованность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:

г

ос = -

г-\

1--

S

X

\ /

где а — коэффициент Кронбаха; г — количество заданий теста; S ? — дисперсия по ;'-му пункту теста; 5, — дисперсия суммарных баллов по всему тесту.

В табл. 3.6 содержатся данные о внутренней согласованности факторов личности, полученные по авторским «ключам» (приведено буквенное обозначение фактора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетворительно для большинства факторов. А фактор N вообще измеряет нечто, не имеющее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор /-"(сургенция—десургенция) и фактор Я пармия—тректия (смелость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или существования известных культурных различий.

Для того чтобы выявить, что же именно стоит за данными, получаемыми с помощью 16PF, мы использовали факторный анализ. Факторы извлекались методом

1 Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталик Духневичу.

172 Глава 3. Психометрические основы психодиагностики: основные этапы..

Таблица 3.6

Данные о внутренней согласованности

по факторам личности, выделенным Кеттеллом

Обозначение фактора

Коэффициент Кронбаха

1

А

0,335699

2

С

0,293849

3

Е

0,210113

4

F

0,640528

5

G

0,403974

6

Н

0,727452

7

I

0,521693

8

L

0,172452

9

М

0,138720

10

N

0,005232

И

0

0,443746

12

а

0,002209

13

а

0,379002

14

а

0,452439

15

а

0,486635

I

главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений — scree-plot (рис. 3.2). На так называемом «графике осыпи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно расположены так называемые «шумящие» факторы. Этот критерий позволяет выде-

1 2345678 9101112131415161718192021 Номер собственного значения

Рис. 3.2. Диаграмма собственных значений, на основе которой принималось решение о количестве факторов

studfiles.net

3.9. Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах

168 Глава 3. Психометрические основы психодиагностики: основные этапы...

Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Однако репрезентативность выборки не зависит от ее объема. Например, для того чтобы получить нормативные показатели для всей популяции детей, обучающихся в начальной школе, потребуется выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:

я(я-1)

где SD — стандартное отклонение; X2 — результат всего опросника всех испытуемых; п — количество испытуемых; 2 — сумма.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных («сырых») оценок. В случае линейного преобразования сохраняются все свойства исходного распределения «сырых» оценок, и такие показатели называются стандартными или г-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандартное отклонение нормативной группы. Формула имеет вид:

Здесь необходимо сказать о том, что основной причиной преобразования первичных оценок в некоторую производную шкалу является желание получить показатели, которые сопоставимы между собой вне зависимости от того, по какому

3.9. Стандартизация теста

158

сту они получены. Линейное преобразование позволяет получить показателе |опоставимые лишь в том случае, когда распределения «сырых» оценок, по кото 5ым они рассчитываются, имеют примерно одинаковую форму. Для того чтобь сопоставлять показатели, полученные на основе распределений разной формы прибегают к нелинейному преобразованию, или к нормализованным стандарт ным показателям. Процедура нелинейного преобразования достаточно проста i описана в многочисленных руководствах по математической статистике. Такж показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нор мальной кривой на некоторое число единиц стандартного отклонения. Сначал; определяют процент лиц, чьи показатели превышают каждую «сырую» оценку а затем по этому проценту в таблице отыскивают соответствующее значение нор мализованного стандартного показателя. Эти показатели, как и линейно преоб разованные, будут иметь среднее (X), равное 0, и стандартное отклонение (5D) равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соот ветствующую среднему нормальной кривой, превосходя 50 % группы. В случае если показатель равен —1, испытуемый превосходит примерно 16 % группы, а ее ли +1 — превосходит 84 % группы. Нормализованным стандартным показателя!^ можно придать любую удобную форму, например, умножив его на 10 и прибави произведение к 50, получаем так называемый «Г-показатель» и в этом случае 7 равное 50, соответствует среднему, равному 60 — превышает среднее на одно стан дартное отклонение и т. д. С другими, не менее популярными нелинейными пре образованиями «сырых» показателей теста, можно ознакомиться в соответствую щей литературе1.

Созданием стандартизованного теста и его публикацией обычно завершаете работа психолога, однако следует помнить и о том, что с течением времени не обходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллект; (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предполо жить, что процесс их старения будет ускоряться. Для наглядности этапы конст руирования теста представлены на рис. 3.1.

Пример из практики: определение надежности опросника 16 PFKerrejiJia Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) от носится к наиболее распространённым психодиагностическим инструментам и hi нуждается в специальном представлении. Уже без малого 50 лет психологи всеп мира используют его для решения разнообразных прикладных и научных задач Однако как в бывшем СССР, так и ныне во вновь образованных странах это-опросник, несмотря на достаточно большую популярность, используется непро фессионально, с нарушением всех норм и правил, предъявляемых к психологиче ским тестам.

Кроме различных переводов опросника, которые существенно отличаюто один от другого, в русскоязычной литературе часто встречаются и различны!

1 См., напр., БурлачукЛ, Ф., Морозов С. М. Словарь-справочник по психодиагностике. — СПб.: Питер 1999, а также Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер с англ. — М.: Прогресс, 1976.

170 Глава 3. Психометрические основы психодиагностики: основные этапы.

Определение теста и выбор метода шкалирования

Генерирование заданий для теста

Дотестовые задания

Конструирование шкалы

Пилотажное тестирование

Стандартизация теста

Сбор нормативных показателей

Публикация руководства

Пересмотры теста с течением времени

Рис. 3.1. Этапы конструирования теста

•«ключи» к его факторам. Опубликованные в многочисленных сборниках и брошюрах варианты опросника не защищены (!) от ошибок и произвольного вмешательства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отечественных выборках, то непонятно, какого рода результаты получали его многочисленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ставилась задача проверки факторной структуры 16PF на национальных выборках:

3.9. Стандартизация теста 171

это статьи В. М. Русаловаи О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль-ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множеством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощь» опросника 16Р77измеряется нечто, имеющее неясное отношение к факторам личности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст исследуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или среднее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

Как известно, точность измерения с помощью психодиагностического инструмента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально полученные нами, были оценены по авторским ключам на внутреннюю согласованность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:

г

ос = -

г-\

1--

S

X

\ /

где а — коэффициент Кронбаха; г — количество заданий теста; S ? — дисперсия по ;'-му пункту теста; 5, — дисперсия суммарных баллов по всему тесту.

В табл. 3.6 содержатся данные о внутренней согласованности факторов личности, полученные по авторским «ключам» (приведено буквенное обозначение фактора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетворительно для большинства факторов. А фактор N вообще измеряет нечто, не имеющее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор /-"(сургенция—десургенция) и фактор Я пармия—тректия (смелость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или существования известных культурных различий.

Для того чтобы выявить, что же именно стоит за данными, получаемыми с помощью 16PF, мы использовали факторный анализ. Факторы извлекались методом

1 Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталик Духневичу.

172 Глава 3. Психометрические основы психодиагностики: основные этапы..

Таблица 3.6

Данные о внутренней согласованности

по факторам личности, выделенным Кеттеллом

Обозначение фактора

Коэффициент Кронбаха

1

А

0,335699

2

С

0,293849

3

Е

0,210113

4

F

0,640528

5

G

0,403974

6

Н

0,727452

7

I

0,521693

8

L

0,172452

9

М

0,138720

10

N

0,005232

И

0

0,443746

12

а

0,002209

13

а

0,379002

14

а

0,452439

15

а

0,486635

I

главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений — scree-plot (рис. 3.2). На так называемом «графике осыпи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно расположены так называемые «шумящие» факторы. Этот критерий позволяет выде-

1 2345678 9101112131415161718192021 Номер собственного значения

Рис. 3.2. Диаграмма собственных значений, на основе которой принималось решение о количестве факторов

studfiles.net


Смотрите также