15. Репрезентативность тестовых норм. Параметры нормального распределения и их подсчет. Репрезентативность теста


Репрезентативность критериальных тестов.

⇐ ПредыдущаяСтр 6 из 11Следующая ⇒

В тестах по критерию в качестве реального эталона применяется критерий (как правило, это какой-то социальный норматив), ради которого создается тест - целевой критерий.

Такая ситуация имеет место в обучении: тестирование, направленное на получение информации об уровне усвоения определенных знаний, умений и навыков (при профессиональном обучении), должно точно отражать уровень освоения этих навыков и тем самым давать надежный прогноз эффективности конкретной профессиональной деятельности.

Рассмотрим операциональную схему шкалирования, применяемую при создании критериального теста [15]. Пусть имеется некоторый критерий С,ради прогнозирования которого психодиагност создает какой-то тест Х.

Для простоты представим С как дихотомическую переменную с двумя значениями - «1» и «0» (например, поступит выпускник школы в вуз или нет). С=1 означает, что i-тый субъект достиг критерия (попал в "высокую" группу по критерию, т.е. поступил в вуз), С =0 означает, что i-тый субъект не достиг критерия (попал в "низкую" группу, т.е. не поступил).

Затем психолог проводит тест Х на интересующей его выборке, и в результате каждый индивид (школьник) получает определенный тестовый балл . После того как для каждого индивида из выборки становится известным значение С (например, по ступил или нет в вуз), психодиагност располагает всех индивидов по порядку возрастания балла и для каждого деления исходной шкалы сырых тестовых баллов подсчитывает с какой вероятностью (Р) каждый индивид (школьник) может попасть в "высокую" группу по критерию.

На графике 8 проиллюстрированы распределения вероятности P(C =1) в зависимости от . Очевидно, что кривая, представленная на графике 8, является эмпирической линией регрессии С по .

Теперь можно сформулировать основное требование к критериальному тесту: линия регрессии должна быть монотонной функцией С от Х. Иными словами, ни для одного более высокого значения вероятность Р не должна быть меньшей, чем для какого-либо менее высокого значения .

Если это условие выполняется, то открывается возможность для критериального шкалирования сырых баллов Х. При критериальном шкалировании к делениям сырой шкалы Х применяется поточечный перевод прямо в шкалу Р на основании эмпирической линии регрессии.

Например, если испытуемый А получил по тесту Х 18 "сырых" очков и этому результату соответствует Р=0,6, то испытуемому А ставится в соответствие показатель 60%.

Конечно, любая эмпирическая кривая является лишь приближенной моделью той зависимости, которая могла бы быть воспроизведена на генеральной совокупности.

Поэтому обычно предпринимаются попытки аппроксимировать эмпирическую линию регрессии какой-либо функциональной зависимостью, что позволяет затем производить прогноз с применением формулы (а не таблицы или графика).

Например, если линия регрессии имеет вид приблизительно такой, какой изображен на рис.6, то применение процентильной нормализации позволяет получить простую линейную регрессию С по нормализованной шкале Z.

Это как раз тот случай, когда имеет место эквивалентность стратегии, использующей выборочно-статистические тестовые нормы, и стратегии, использующей критериальные нормы.

В завершении данного материала, рассмотрим операции по анализу распределения тестовых баллов, построению тестовых норм и проверке их репрезентативности.

Согласно Столину В. В. [15], действия, которые последовательно должен произвести психолог при построении тестовых норм сводятся к такому алгоритму:

1. Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из популяции, на которой предполагается применять тест. Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

2. Произвести группировку "сырых" баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал определяется величиной W/m, где - размах; m - количество интервалов шкалы. Необходимо иметь в виду, что группировка индивидуальных баллов, набранных испытуемыми по тесту, сказывается не только на распределении баллов по классам (интервалам квантования), но и на средних показателях, характеризующих то или иное измеряемое свойство. Экспериментальные данные показывают [11], что совершенно не безразлично, не только то, на какое число классов разбивается вся совокупность полученных тестовых баллов, но и как определяются границы первого класса.

Чтобы получились более адекватные результаты обработки статистических данных, рекомендуется:

- во-первых, не брать слишком большой интервал шкалы - он не должен превышать 1/3-1/4 величины среднего квадратичного отклонения;

- во-вторых, определять границы первого класса следует так, чтобы минимальный показатель набранных по тесту баллов, попадал примерно в середину этого класса.

3. Построить распределение частот тестовых баллов в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего и стандартного отклонения, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений (можно с помощью критерия Колмогорова или с одним из указанных способов) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандартных очков).

6. Если совпадения не будет - нормальность отвергается, тогда произвести проверку устойчивости распределения расщеплением выборки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки считать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т.п.) с помощью критерия Колмогорова. Построить графики гистограммы и кумуляты для полной и частной выборок. При значимых различиях разбить выборку на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала шкалы "сырого" балла). При наличии разнородных подвыборок для каждой подвыборки должна быть своя таблица.

9. Обсудить конфигурацию полученных распределений.

10. В случае негативных результатов - отсутствия устойчивых норм для шкалы с заданным числом интервалов - осуществить обследование более широкой выборки или отказаться от плана использования данного теста.

Контрольные вопросы для самопроверки: §4, 5. Подсчет параметров и оценка типа распределения.

1.Что понимается под понятием "репрезентативности"?

2. Для чего необходима проверка устойчивости распределения?

3. На чем основана общая логика проверки устойчивости распределения тестовых баллов?

4. Как проверяется репрезентативность критериальных тестов?

5. Какие действия последовательно должен произвести психолог при построении тестовых норм?

 

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Гусев А. Н., Измайлов Ч. А., Михалевская М. Б. Измерение в психологии: общий психологический практикум. М.: Смысл, 1997. -287 с.

4. Дружинин В.Н. Экспериментальная психология: Учебное пособие - М.: ИНФРА-М, 1997. - 256 с.

5. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

6. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

Читайте также:

lektsia.com

Тестовые нормы и проверка их репрезентативности. — КиберПедия

 

Тестовые нормы – количественные и (или) качественные критерии оценки результатов теста, позволяющие определить уровень достижений или степень выраженности психологических свойств, которые являются объектами процедуры измерения.

В качестве таких критериев могут выступать статистические показатели выборки стандартизации, различные признаки-симптомы, свидетельствующие об определенном уровне выраженности диагностируемых качеств.

 

Виды тестовых норм:

1. Абсолютные – количественные критерии.

2. Критериальные – содержательные (качественные) критерии.

 

Репрезентативность – свойство выборочной совокупности представлять характеристики генеральной совокупности (количественно и качественно отражать ее).

Репрезентативность означает, что распределение признака в выборочной совокупности соответствует его реальному распределению – генеральной совокупности.

 

Операции по анализу распределения тестовых баллов, построению тестовых норм и проверке их репрезентативности.

1. Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест.

Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызываемый внешними событиями).

 

2. Произвести группировку «сырых» баллов с учетом выбранного интервала квантования (интервала равнозначности).

Интервал определяется величиной: размах, деленный на количество интервалов равнозначности (градаций шкалы).

 

3. Построить распределение частот тестовых баллов (для заданных интервалов) в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты.

 

4. Произвести расчет среднего и стандартного отклонений, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

 

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n<200 с помощью более мощных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений).

 

6. Если совпадения не будет – нормальность отвергается, тогда произвести проверку устойчивости распределения расщеплением выборки на 2 случайные половины. При совпадении нормализованных баллов для половины и для целой выборки, можно считать нормализованную шкалу устойчивой.

 

7. Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т.п.) с помощью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной выборок. При значимых различиях разбить выборки на разнородные подвыборки.

 

8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности «сырого балла»). При наличии разнородных подвыборок для каждой подвыборки должна быть своя таблица.

 

9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне значимости < 0,01) с учетом стандартной ошибки в определении среднего значения.

 

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма решения того или иного теста.

 

11. В случае негативных результатов – отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) – осуществить обследование более широкой выборки или отказаться от плана использования данного теста.

Билет 17.

Надежность теста и ее виды.

 

Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Методологическая дисциплина (по отношению к ПД):

Обосновывает требования к…

- измерительным психодиагностическим методам;

- процедурам разработки теста;

- применению процедуры статистического анализа;

- адаптации методик к новым условиям их применения;

- интерпретации тестовых данных (пр: проблема критерия и т.п.).

 

Знание психометрики необходимо для критичности…:

- в понимании ограниченности методик;

- в понимании допущений, которые были сделаны при разработке;

- в понимании валидности и надежности и т.д.

Основные психометрические характеристики:

- надежность;

- валидность.

НАДЕЖНОСТЬ (устойчивость) – это такая характеристика методики, которая позволяет оценить постоянство тестовых показателей (т.е. устойчивость результатов теста к действию посторонних, случайных факторов).

На надежность методики влияет (посторонние факторы):

- нестабильность диагностируемого свойства;

- несовершенство диагностических методик:

– небрежно составленная инструкция;

– разнородные по своему характеру задания;

– нечетко определенная область измерения;

– нечетко прописанная процедура обследования.

- меняющаяся ситуация обследования:

– разное время дня;

– разная освещенность помещения;

– посторонние шумы;

– погода и т.д.

- манера поведения психолога:

– разная стимуляция клиента на выполнение задания и т.д.

- состояние клиента (колебание в этих состояниях):

– настроение;

– усталость и т.д.

- элемент субъективизма в способах оценки/ интерпретации результатов (особенно при открытых ответах и т.п.).

 

Для того, чтобы надежность методики была высокой, методика должна быть стандартизирована (все д.б. прописано: процедура проведения, область исследования и т.д.).

 

В качестве цифрового показателя надежности выступает коэффициент корреляции.

 

Виды надежности:

РЕТЕСТОВАЯ НАДЕЖНОСТЬ – вид надежности, который определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики.

(Чем выше коэффициент корреляции, тем выше надежность, т.е. мы получаем примерно то же самое распределение).

Определение временного интервала:

С увеличением временного интервала – показатели корреляции имеют тенденцию к снижению (т.к. имеет место влияние посторонних факторов).

Пр: могут произойти естественные временные изменения.

Обычно выбираются непродолжительные временные интервалы: от 2 недель до 2–4 месяцев (это зависит от возраста обследуемых. Чем старше, тем больше можно делать интервал, и наоборот).

Слишком маленький интервал:

→ проблема запоминания;

→ проблема интереса.

НАДЕЖНОСТЬ ПАРАЛЛЕЛЬНЫХ ФОРМ – проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста).

 

Требования к созданию параллельных форм теста:

1. Количество заданий д.б. одинаково.

2. Типы заданий в обеих формах д.б. унифицированы (приведены в соответствие) в плане психологического содержания, уровня и пределов трудности, охвата тех или иных операций.

3. Задания в тесте д.б. распределены по трудности одинаковым образом.

4. обе формы должны иметь примерно одинаковое среднее значение и среднее отклонение.

5. Процедура применения отдельных форм, техника оценивания результатов д.б. унифицированы.

Показатель надежности – коэффициент корреляции.

НО!! Существует опасность обучаемости решению тестов. Обследуемый может запомнить алгоритм решения определенных типов задач.

НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА (одномоментная надежность/ надежность-согласованность) – характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Надежность проверяют на результатах…:

1) Результаты теста расщепляются на части (чаще всего путем деления на четные и нечетны пункты).

2) По каждой половине рассчитываются суммарные баллы.

3) Между двумя рядами баллов по испытуемым рассчитываются допустимые коэффициенты корреляции.

Разделение теста на части → уменьшение величины этого теста → уменьшение/ снижение достоверности результатов.

+ надо предусмотреть: при разделении – задания по своему характеру д.б. однородными.

Преимущества данного вида надежности:

1) Отсутствие влияния факторов, порождаемых повторным тестированием: эффект упражнения, снижение мотивации и т.д.

2) Менее трудоемок (пр: не надо разрабатывать параллельную форму теста, проводить повторное обследование и т.д.).

!! Наиболее высокий показатель надежности обеспечивает надежность параллельных форм !!

Но она ограничивается техническими возможностями.

Билет 18.

Валидность теста и ее виды.

Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Методологическая дисциплина (по отношению к ПД):

Обосновывает требования к…

- измерительным психодиагностическим методам;

- процедурам разработки теста;

- применению процедуры статистического анализа;

- адаптации методик к новым условиям их применения;

- интерпретации тестовых данных (пр: проблема критерия и т.п.).

Знание психометрики необходимо для критичности…:

- в понимании ограниченности методик;

- в понимании допущений, которые были сделаны при разработке;

- в понимании валидности и надежности

и т.д.

Основные психометрические характеристики:

- надежность;

- валидность.

ВАЛИДНОСТЬ – это характеристика, которая включает в себя сведения об области измеряемых свойств и репрезентативности диагностической процедуры по отношению к ним.

Валидность – это такая характеристика, которая показывает то, что измеряет данная методика и насколько хорошо она это делает.

Виды валидности:

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ – характеризует степень соответствия заданий теста измеряемой области психических свойств.

Закладывается уже на стадии разработки теста.

Устанавливается экспертами.

Этапы валидизации теста:

1. Определяется круг измеряемых свойств и (или) видов деятельности. Происходит расчленение свойства/ деятельности на элементы.

2. Разрабатывается модель тестовой деятельности или модель свойства, содержание которой подбирается путем выделения наиболее важных элементов реальной деятельности.

3. Проводится анализ степени соответствия разработанной модели реальной деятельности/ свойству (степень соответствия результатов 1 и 2 этапов).

КРИТЕРИАЛЬНАЯ/ эмпирическая ВАЛИДНОСТЬ – включает в себя текущую и прогностическую валидность.

- отражает степень соответствия прогноза и диагноза определенному кругу критериев измеряемого свойства.

Текущая валидность – степень соответствия диагноза.

Прогностическая валидность – степень соответствия прогноза.

 

В качестве критерия может выступать уровень достижений в какой-либо другой деятельности (производственная, научная, учебные успехи; степень развития какой-либо способности; степень выраженности какого-либо свойства личности; социально-демографические и географические данные и т.п.).

Подсчитывается корреляция двух рядов значений: баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Пр: Разработка методики Экстра-Интраверсии.

Экстраверсия (1)/Интраверсия (2) → определение, свойства (1 и 2) → экспертная оценка участником эксперимента этих параметров + оценка экстра-интраверсии с помощью разрабатываемой методики → корреляция (чем выше, тем валидность больше).

 

КОНСТРУКТНАЯ ВАЛИДНОСТЬ – отражает степень представленности измеряемого психологического конструкта в результатах теста.

 

Для того, чтобы доказать валидность представленности измеряемого свойства, необходимо найти уже проверенную конструкцию, направленную на измерение того же самого.

Если такой конструкции нет, то привлекаются эксперты. При этом они работают не с тестом (как это было в случае с содержательной валидностью), а с испытуемыми из выборки стандартизации (наблюдают).

Если и это не удается, тогда прибегают к оценкам особого типа – субъективным, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним.

Виды конструктной валидности:

- конвергентная валидность (схождение) – для доказательства надо выбрать какое-то психологическое свойство, которое связано (прямо или обратно) с измеряемым свойством.

- дискриминативная валидность – доказывается отсутствием связи между измеряемым свойством и каким-либо другим свойством.

Различия:

Содержательная – соответствие заданий теста измеряемому свойству.

Критериальная – соответствие диагноза и/или прогноза какому-либо критерию.

Конструктная – соответствие результата теста психологическому конструкту.

КОНКУРЕНТНАЯ ВАЛИДНОСТЬ – оценивается по корреляции разработанного теста с другими, валдность которых относительно данного параметра установлена.

 

ОЧЕВИДНАЯ ВАЛИДНОСТЬ – описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.

 

Билет 19.

cyberpedia.su

Понятие о репрезентативности тестовых норм. Порядок работы по проверке репрезентативности полученных результатов.

Поиск Лекций

Зачем нужны тестовые нормы? Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применить тест на широкой популяции, называется репрезентативностью тестовых норм.(Популяция – категория испытуемых определенной социальной, профессиональной или половозрастной принадлежности.) Норма теста – средний диапазон значений на шкале измеряемого свойства характерный для испытуемых определенной группы. Их меняют каждые 5 лет.

Репрезентативность (от фр. – показательный) тестовых норм – свойство выборочной совокупности представлять генеральную совокупность. Репрезентативность означает, что с некоторой наперед заданной или определенной статистической погрешностью можно считать, что пред- ставление в выборочной совокупности распределение изучаемых призна- ков соответствует их реальному распределению. Ошибка репрезентативности – различие характеристик выборки и генеральной совокупности.Выборка, на которой определяется статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.

В репрезентативности тестовых норм рассматривают следующие проблемы:

1. Стандартизация шкалы.

2. Статистическая природа тестовых шкал. Как повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла по шкале теста.

3. Проблема меры в психометрике. В дифференциальной психометрике отсутствуют физические эталоны: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Роль косвенных эталонов в психометрике выполняют сами тесты.

4. Оценка типа распределения тестовых баллов и проверка устойчивости распределения. Используют следующие параметры: среднее арифметическое, среднее квадратическое (стандартное) отклонение, асимметрия, эксцесс, общее неравенство Чебышева, критерий Колмогорова. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если «половинное» (полученное на половине выборки) рас- пределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет хорошо моделировать распределение генеральной совокупности.

Доказательство устойчивости распределения означает доказательство репрезентативности норм. Традиционный способ доказательства устойчивости сводится к выяснению хорошего приближения эмпирического распределения к какому-либо теоретическому (например, нормальному распределению, хотя может быть и любое другое).

5. Тестовые эталоны (или тестовые нормы).

5.1. Сама сырая шкала может иметь практический смысл.

5.2. Стандартизированные шкалы: Шкала IQ, Т-шкала, шкала стэнайнов (стандартная девятка), шкала стэнов.

5.З. Процентильная шкала. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл чем балл данного испытуемого. Процентили указывают на относительное положение индивида в выборке стандартизации. Их можно рассматривать как ранговые градации, общее число которых равно ста, только (в отличие от ранжирования) отсчет ведется снизу. Поэтому чем ниже процентиль, тем хуже позиция индивида. Процентили отличаются от процентных показателей. Процентные показатели фиксируют качество выполненных заданий. Процентиль – это производный показатель, указывающий на долю от общего числа членов группы.

5.4. Критериальные нормы. В качестве эталона используется целевой критерий. Высокую эффективность показывают узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Хорошо зарекомендовали в сфере образования (тесты достижений и КОРТ).

5.5. Социально-психологический норматив.

Независим от результатов испытаний и объективно задан. СПН реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Для анализа данных относительно их близости к СПН, рассматривается как 100% -ое выполнение теста, испытуемые делятся на 5 подгрупп. Для каждой из под- групп подсчитывается средний процент правильно выполнивших задания. 10% – наиболее успешные, 20% – близкие к успешным, 40% – средние, 20% – мало успешные, 10% – наименее успешные.

4.3. Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Стандартизация как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.

4.3.1. Стандартизация процедуры эксперимента подразумевает регламентацию процедуры, унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых (указывается область применения теста). К числу требований, которые необходимо соблюдать при проведении эксперимента относятся такие: инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере; ни одному испытуемому не следует давать никаких преимуществ перед другими; в процессе эксперимента не давать отдельным испытуемым дополнительные пояснения; эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях; временные ограничения в выполнении зада- ний для всех испытуемых должны быть одинаковыми.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, т.к. только строгое и соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

4.3.2. Во втором случае под стандартизацией понимается преобразование нормальной (или искусственно нормализованной) шкалы оценок новую шкалу, основанную уже не на количественных эмпирических значениях изучаемого показателя, а на оценке его относительного места в распределении результатов в выборке испытуемых.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют «сырым тестовым баллом». Для применения тестовых норм необходимо перевести тестовые баллы из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла». Таким образом, благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых, появляется возможность выражения тестовых оценок в относительных к выборке

 

poisk-ru.ru

15. Репрезентативность тестовых норм. Параметры нормального распределения и их подсчет.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм— третье важнейшее психометрическое свойство теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИЮ), то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Операции по анализу распределения тестовых баллов, построению тестовых норм и проверке их репрезентативности. Перечислим действия, которые последовательно должен произвести психолог при построении тестовых норм.

1. Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал опре­деляется величиной W/m , где W=x max — х max; m - количество интервалов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для заданных интервалов равнозначности) в виде таблицы и в виде соответ­ствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего арифметического значения и стандартного отклонения, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n < 200 с помощью более мощ­ных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандартных баллов).

6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщепле­нием выборки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки можно счи­тать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной вы­борок. При значимых различиях разбить выборку на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица.

9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста.

11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) - осуществить обследование более широкой выборки или отказаться от использования, данного теста.

studfiles.net


Смотрите также