3. Основы теории тестов: Тесты и тестирование. Информативность теста


Задание № 4 Информативность теста

Информативность теста — это степень точности, с которой он измеряет свойство (качество, способность, характеристику и т. п.), для оценки которого используется.

В настоящее время информативность подразделяют (классифицируют) на несколько видов. Так, в частности, если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, тест должен обладать прогностической информативностью. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно – на основе содержательного анализа ситуации (содержательная, или логическая, информативность). В этом случае тест называют содержательно или логически информативным на основе мнений экспертов-специалистов.

Факторная информативность – одна из очень частых моделей теоретической информативности. Информативность тестов по отношению к скрытому критерию, который искусственно составляется из их результатов, определяется на основе показателей батареи тестов при помощи факторного анализа. Факторная информативность связана с понятием размерности тестов в том смысле, что число факторов вынужденно определяет и число скрытых критериев. При этом размер тестов зависит не только от числа оцениваемых двигательных способностей, но и от остальных свойств моторного теста.

Простую или сложную информативность различают по числу тестов, для которых выбран критерий, то есть для одного или двух и более тестов. С вопросами взаимного отношения простой и сложной информативности тесно связаны следующие три вида информативности. Чистая информативность выражает степень повышения сложной информативности батареи тестов, когда данный тест включают в батарею тестов более высокого порядка.

Параморфная информативность выражает внутреннюю информативность теста в рамках прогноза одаренности к определенной деятельности. Она определяется специалистами-экспертами с учетом профессиональной оценки одаренности. Ее можно определить как скрытую (для специалистов -«интуитивную») информативность отдельных тестов.

Очевидная информативность в значительной степени связана с содержательной и показывает, насколько очевидно содержание тестов для тестируемых лиц. Она связана с мотивацией испытуемых. Информативность внутренняя или внешняя возникает в зависимости от того, определяется ли информативность теста на основе сравнения с результатами других тестов или на основе критерия, который по отношению к данной батарее тестов является внешним.

Абсолютная информативность касается определения одного критерия в абсолютном понимании, без привлечения каких-либо других критериев.

Дифференциальная информативность характеризует взаимные различия между двумя или более критериями. Например, при выборе спортивных талантов может встретиться ситуация, когда тестируемый проявляет способности к двум разным спортивным дисциплинам. При этом нужно решить вопрос, к какой из этих двух дисциплин он наиболее способен. В соответствии с временным интервалом между измерением (тестированием) и определением результатов критерия различают два вида информативности - синхронную и диахронную.

Диахронная информативность, или информативность к неодновременным критериям, может иметь две формы. Одной из них является случай, когда критерий измеряется раньше, чем тест - ретроспективная информативность. Если говорить об оценке подготовленности спортсменов, то наиболее информативным показателем является результат в соревновательном упражнении. Однако он зависит от большого количества факторов, и один и тот же результат в соревновательном упражнении могут показывать люди, заметно отличающиеся друг от друга по структуре подготовленности. Например, спортсмен с отличной техникой плавания и относительно невысокой физической работоспособностью и спортсмен со средней техникой, но с высокой работоспособностью будут соревноваться одинаково успешно(при прочих равных условиях).

Логический метод определения информативности тестов.

Суть этого метода определения информативности заключается в логическом (качественном) сопоставлении биомеханических, физиологических, психологических и других характеристик критерия и тестов.

Эмпирический метод определения информативности тестов при наличии измеряемого критерия.

Ранее говорилось о важности использования единичного логического анализа для предварительной оценки информативности тестов. Эта процедура позволяет отсеять заведомо неинформативные тесты, структура которых мало соответствует структуре основной деятельности спортсменов или физкультурников. Остальные тесты, содержательная информативность которых признана высокой, должны пройти дополнительную эмпирическую проверку. Для этого результаты теста сопоставляют с критерием. В качестве критерия обычно используют

1) результат в соревновательном упражнении;

2) наиболее значимые элементы соревновательных упражнений;

3) результаты тестов, информативность которых для

спортсменов данной квалификации была установлена ранее;

4) сумму очков, набранную спортсменом при выполнении

комплекса тестов;

5) квалификацию спортсменов.

При использовании первых четырех критериев общая схема

определения информативности теста следующая.

Эмпирический метод определения информативности тестов при отсутствии единичного критерия.

Эта ситуация наиболее типична для массовой физической культуры, где единичного критерия либо нет, либо форма его представления не позволяет использовать описанные выше методы для определения информативности тестов. Предположим, что нам необходимо составить комплекс тестов для контроля физической подготовленности студентов. С учетом того, что студентов в стране сотни тысяч и такой контроль должен быть массовым, к тестам предъявляются определенные требования: они должны быть просты по технике, выполняться в простейших условиях и иметь несложную и объективную систему измерений. Таких тестов сотни, но нужно выбрать наиболее информативные. Сделать это можно следующим способом: 1) отобрать несколько десятков тестов, содержательная информативность которых кажется бесспорной; 2) с их помощью оценить уровень развития физических качеств у группы студентов; 3) обработать полученные результаты на компьютере, используя для этого факторный анализ.

В основе этого метода лежит положение о том, что результаты множества тестов зависят от сравнительно небольшого количества причин, которые для удобства названы факторами.

При оценке информативности конкретного теста необходимо учитывать факторы в значительной степени влияющие на величину коэффициента информативности.

studfiles.net

§25. Информативность теста

Информативность теста — это степень точности, с

которой он измеряет свойство (качество, способность, характеристику и т. п.), для оценки которого используется. В литературе до 1980 г. вместо термина «информативность» применялся адекватный ему термин «валидность». В настоящее время информативность подразделяют (классифицируют) на несколько видов. Так, в частности, если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, тест должен обладать прогностической информативностью. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно – на основе содержательного анализа ситуации (содержательная, или логическая, информативность). В этом случае тест называют содержательно или логически информативным на основе мнений экспертов-специалистов.

Факторная информативность – одна из очень частых моделей теоретической информативности. Информативность тестов по отношению к скрытому критерию, который искусственно составляется из их результатов, определяется на основе показателей батареи тестов при помощи факторного анализа. Факторная информативность связана с понятием размерности тестов в том смысле, что число факторов вынужденно определяет и число скрытых критериев. При этом размер тестов зависит не только от числа оцениваемых двигательных способностей, но и от остальных свойств моторного теста. Когда это влияние можно частично исключить, то факторная информативность остается подвижным модельным приближением теоретической или конструктной информативности, то есть валидности моторных тестов к двигательным способностям.

138

Простую или сложную информативность различают по числу тестов, для которых выбран критерий, то есть для одного или двух и более тестов. С вопросами взаимного отношения простой и сложной информативности тесно связаны следующие три вида информативности. Чистая информативность выражает степень повышения сложной информативности батареи тестов, когда данный тест включают в батарею тестов более высокого порядка.

Параморфная информативность выражает внутреннюю информативность теста в рамках прогноза одаренности к определенной деятельности. Она определяется специалистамиэкспертами с учетом профессиональной оценки одаренности. Ее можно определить как скрытую (для специалистов - «интуитивную») информативность отдельных тестов.

Очевидная информативность в значительной степени связана с содержательной и показывает, насколько очевидно содержание тестов для тестируемых лиц. Она связана с мотивацией испытуемых. Информативность внутренняя или внешняя возникает в зависимости от того, определяется ли информативность теста на основе сравнения с результатами других тестов или на основе критерия, который по отношению к данной батарее тестов является внешним.

Абсолютная информативность касается определения одного критерия в абсолютном понимании, без привлечения каких-либо других критериев.

Дифференциальная информативность характеризует взаимные различия между двумя или более критериями. Например, при выборе спортивных талантов может встретиться ситуация, когда тестируемый проявляет способности к двум разным спортивным дисциплинам. При этом нужно решить вопрос, к какой из этих двух дисциплин он наиболее способен.

В соответствии с временным интервалом между измерением (тестированием) и определением результатов критерия различают два вида информативности - синхронную и диахронную. Диахронная информативность, или информативность к неодновременным критериям, может иметь две формы. Одной из них является случай, когда критерий измеряется раньше, чем тест - ретроспективная информативность. Если говорить об оценке подготовленности

139

спортсменов, то наиболее информативным показателем является результат в соревновательном упражнении. Однако он зависит от большого количества факторов, и один и тот же результат в соревновательном упражнении могут показывать люди, заметно отличающиеся друг от друга по структуре подготовленности. Например, спортсмен с отличной техникой плавания и относительно невысокой физической работоспособностью и спортсмен со средней техникой, но с высокой работоспособностью будут соревноваться одинаково успешно (при прочих равных условиях).

Для выявления ведущих факторов, от которых зависит результат в соревновательном упражнении, и используются информативные тесты. Но как узнать меру информативности каждого из них? Например, какие из перечисленных тестов информативны при оценке подготовленности теннисистов: время простой реакция, время реакции выбора, прыжок вверх с места, бег на 60 м? Для ответа на эти вопросы необходимо знать методы определения информативности. Их два: логический (содержательный) и эмпирический.

Логический метод определения информативности тестов.

Суть этого метода определения информативности заключается в логическом (качественном) сопоставлении биомеханических, физиологических, психологических и других характеристик критерия и тестов. Предположим, что мы хотим подобрать тесты для оценки подготовленности высококвалифицированных бегунов на 400 м. Расчеты показывают, что в этом упражнении при результате 45 с примерно 72% энергии поставляется за счет анаэробных механизмов энергопродукции и 28 % – за счет аэробных. Следовательно, наиболее информативными будут тесты, позволяющие выявить уровень и структуру анаэробных возможностей бегуна: бег на отрезках 200—300м с максимальной скоростью, прыжки с ноги на ногу в максимальном темпе на дистанции100-200м, повторный бег на отрезках до 50 м, с очень короткими интервалами отдыха. Как показываютклинико-биохимическиеисследования, по результатам этих заданий можно судить о мощности и емкости анаэробных источников энергии и, следовательно, их можно использовать в качестве информативных тестов.

140

Приведенный выше простой пример имеет ограниченное значение, так как в циклических видах спорта логическая информативность может быть проверена экспериментально. Чаще всего логический метод определения информативности используется в таких видах спорта, где нет четкого количественного критерия. Например, в спортивных играх логический анализ фрагментов игры позволяет вначале сконструировать специфический тест, а затем проверить его информативность.

Эмпирический метод определения информативности тестов при наличии измеряемого критерия. Ранее говорилось о важности использования единичного логического анализа для предварительной оценки информативности тестов. Эта процедура позволяет отсеять заведомо неинформативные тесты, структура которых мало соответствует структуре основной деятельности спортсменов или физкультурников. Остальные тесты, содержательная информативность которых признана высокой, должны пройти дополнительную эмпирическую проверку. Для этого результаты теста сопоставляют с критерием. В качестве критерия обычно используют

1)результат в соревновательном упражнении;

2)наиболее значимые элементы соревновательных упражнений;

3)результаты тестов, информативность которых для спортсменов данной квалификации была установлена ранее;

4)сумму очков, набранную спортсменом при выполнении комплекса тестов;

5)квалификацию спортсменов.

При использовании первых четырех критериев общая схема определения информативности теста следующая.

I. Измеряются количественные значения критериев. Для этого необязательно проводить специальные соревнования. Можно, например, использовать результаты ранее прошедших соревнований. Важно только, чтобы соревнование и тестирование не были разделены длительным временным промежутком. Если в качестве критерия предполагается использовать какой-либоэлемент соревновательного упражнения, необходимо, чтобы он был наиболее информативным.

141

studfiles.net

§25. Информативность теста

Информативность теста — это степень точности, с

которой он измеряет свойство (качество, способность, характеристику и т. п.), для оценки которого используется. В литературе до 1980 г. вместо термина «информативность» применялся адекватный ему термин «валидность». В настоящее время информативность подразделяют (классифицируют) на несколько видов. Так, в частности, если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, тест должен обладать прогностической информативностью. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно – на основе содержательного анализа ситуации (содержательная, или логическая, информативность). В этом случае тест называют содержательно или логически информативным на основе мнений экспертов-специалистов.

Факторная информативность – одна из очень частых моделей теоретической информативности. Информативность тестов по отношению к скрытому критерию, который искусственно составляется из их результатов, определяется на основе показателей батареи тестов при помощи факторного анализа. Факторная информативность связана с понятием размерности тестов в том смысле, что число факторов вынужденно определяет и число скрытых критериев. При этом размер тестов зависит не только от числа оцениваемых двигательных способностей, но и от остальных свойств моторного теста. Когда это влияние можно частично исключить, то факторная информативность остается подвижным модельным приближением теоретической или конструктной информативности, то есть валидности моторных тестов к двигательным способностям.

138

Простую или сложную информативность различают по числу тестов, для которых выбран критерий, то есть для одного или двух и более тестов. С вопросами взаимного отношения простой и сложной информативности тесно связаны следующие три вида информативности. Чистая информативность выражает степень повышения сложной информативности батареи тестов, когда данный тест включают в батарею тестов более высокого порядка.

Параморфная информативность выражает внутреннюю информативность теста в рамках прогноза одаренности к определенной деятельности. Она определяется специалистамиэкспертами с учетом профессиональной оценки одаренности. Ее можно определить как скрытую (для специалистов - «интуитивную») информативность отдельных тестов.

Очевидная информативность в значительной степени связана с содержательной и показывает, насколько очевидно содержание тестов для тестируемых лиц. Она связана с мотивацией испытуемых. Информативность внутренняя или внешняя возникает в зависимости от того, определяется ли информативность теста на основе сравнения с результатами других тестов или на основе критерия, который по отношению к данной батарее тестов является внешним.

Абсолютная информативность касается определения одного критерия в абсолютном понимании, без привлечения каких-либо других критериев.

Дифференциальная информативность характеризует взаимные различия между двумя или более критериями. Например, при выборе спортивных талантов может встретиться ситуация, когда тестируемый проявляет способности к двум разным спортивным дисциплинам. При этом нужно решить вопрос, к какой из этих двух дисциплин он наиболее способен.

В соответствии с временным интервалом между измерением (тестированием) и определением результатов критерия различают два вида информативности - синхронную и диахронную. Диахронная информативность, или информативность к неодновременным критериям, может иметь две формы. Одной из них является случай, когда критерий измеряется раньше, чем тест - ретроспективная информативность. Если говорить об оценке подготовленности

139

спортсменов, то наиболее информативным показателем является результат в соревновательном упражнении. Однако он зависит от большого количества факторов, и один и тот же результат в соревновательном упражнении могут показывать люди, заметно отличающиеся друг от друга по структуре подготовленности. Например, спортсмен с отличной техникой плавания и относительно невысокой физической работоспособностью и спортсмен со средней техникой, но с высокой работоспособностью будут соревноваться одинаково успешно (при прочих равных условиях).

Для выявления ведущих факторов, от которых зависит результат в соревновательном упражнении, и используются информативные тесты. Но как узнать меру информативности каждого из них? Например, какие из перечисленных тестов информативны при оценке подготовленности теннисистов: время простой реакция, время реакции выбора, прыжок вверх с места, бег на 60 м? Для ответа на эти вопросы необходимо знать методы определения информативности. Их два: логический (содержательный) и эмпирический.

Логический метод определения информативности тестов.

Суть этого метода определения информативности заключается в логическом (качественном) сопоставлении биомеханических, физиологических, психологических и других характеристик критерия и тестов. Предположим, что мы хотим подобрать тесты для оценки подготовленности высококвалифицированных бегунов на 400 м. Расчеты показывают, что в этом упражнении при результате 45 с примерно 72% энергии поставляется за счет анаэробных механизмов энергопродукции и 28 % – за счет аэробных. Следовательно, наиболее информативными будут тесты, позволяющие выявить уровень и структуру анаэробных возможностей бегуна: бег на отрезках 200—300м с максимальной скоростью, прыжки с ноги на ногу в максимальном темпе на дистанции100-200м, повторный бег на отрезках до 50 м, с очень короткими интервалами отдыха. Как показываютклинико-биохимическиеисследования, по результатам этих заданий можно судить о мощности и емкости анаэробных источников энергии и, следовательно, их можно использовать в качестве информативных тестов.

140

Приведенный выше простой пример имеет ограниченное значение, так как в циклических видах спорта логическая информативность может быть проверена экспериментально. Чаще всего логический метод определения информативности используется в таких видах спорта, где нет четкого количественного критерия. Например, в спортивных играх логический анализ фрагментов игры позволяет вначале сконструировать специфический тест, а затем проверить его информативность.

Эмпирический метод определения информативности тестов при наличии измеряемого критерия. Ранее говорилось о важности использования единичного логического анализа для предварительной оценки информативности тестов. Эта процедура позволяет отсеять заведомо неинформативные тесты, структура которых мало соответствует структуре основной деятельности спортсменов или физкультурников. Остальные тесты, содержательная информативность которых признана высокой, должны пройти дополнительную эмпирическую проверку. Для этого результаты теста сопоставляют с критерием. В качестве критерия обычно используют

1)результат в соревновательном упражнении;

2)наиболее значимые элементы соревновательных упражнений;

3)результаты тестов, информативность которых для спортсменов данной квалификации была установлена ранее;

4)сумму очков, набранную спортсменом при выполнении комплекса тестов;

5)квалификацию спортсменов.

При использовании первых четырех критериев общая схема определения информативности теста следующая.

I. Измеряются количественные значения критериев. Для этого необязательно проводить специальные соревнования. Можно, например, использовать результаты ранее прошедших соревнований. Важно только, чтобы соревнование и тестирование не были разделены длительным временным промежутком. Если в качестве критерия предполагается использовать какой-либоэлемент соревновательного упражнения, необходимо, чтобы он был наиболее информативным.

141

studfiles.net

IV этап деловой игры Оценка информативности теста

Цели:

  1. Ознакомиться с методами оценки информативности тестов.

  2. Приобрести навыки определения коэффициента информативности теста.

1. Информативность тестов (основные понятия)

Информативность теста ─ это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т.п.), для оценки которого используется. Информативность нередко называют валидностью (обоснованность, действительность, законность). Допустим, что для определения уровня специальной силовой подготовленности спринтеров ─ бегунов и пловцов ─ хотят использовать следующие показатели: 1) кистевую динамометрию; 2) силу сгибателей стопы; 3) силу разгибателей плеча; 4) силу разгибателей шеи. На основе этих тестов предполагают управлять тренировочным процессом, в частности находить слабые звенья двигательного аппарата и целенаправленно укреплять их. Хорошие ли тесты выбраны? Информативны ли они? Даже не проводя специальных экспериментов, можно догадаться, что второй тест, вероятно, информативен у спринтеров-бегунов, третий ─ у пловцов, а первый и четвертый, наверное, не покажут ничего интересного ни у пловцов, ни у бегунов (хотя могут оказаться очень полезными для представителей других видов спорта, например, борцов). В разных случаях одни и те же тесты могут иметь разную информативность.

Вопрос об информативности теста распадается на 2 частных вопроса:

  1. Что измеряет данный тест?

  2. Как точно он измеряет?

Например, можно ли по такому показателю, как МПК, судить о подготовленности бегунов-стайеров, и если можно, то с какой степенью точности? Иными словами, какова информативность МПК у стайеров? Можно ли использовать этот тест в процессе контроля?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, ─ о прогностической информативности. Тест может быть диагностически информативен, а прогностически ─ нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно  на основе содержательного анализа ситуации (содержательная, или логическая информативность). Хотя в практической работе содержательный анализ всегда должен предшествовать математическому, здесь для удобства изложения рассматриваются сначала методы расчета эмпирической информативности.

2. Эмпирическая информативность (существует измеряемый критерий)

Идея определения эмпирической информативности состоит в том, что результаты теста сравнивают с некоторым критерием. Для этого рассчитывают коэффициент корреляции между критерием и тестом (и такой коэффициент называют коэффициентом информативности и обозначают rtk, где t  первая буква в слове «тест»; k  в слове «критерий»).

В качестве критерия берется показатель, заведомо и бесспорно содержащий то свойство, которое собираются измерять с помощью теста.

Нередко бывает так, что существует вполне определенный критерий, с которым можно сравнить предполагаемый тест. Например, при оценке специальной подготовленности спортсменов в видах спорта с объективно измеряемыми результатами таким критерием обычно служит сам результат: более информативен тот тест, корреляция которого со спортивным результатом выше. При определении прогностической информативности критерием является показатель, прогноз которого надо осуществить (например, если прогнозируется длина тела ребенка, критерий  длина его тела во взрослые годы).

Чаще всего в спортивной метрологии критериями служат:

  1. Спортивный результат.

  2. Какая-либо количественная характеристика соревновательной деятельности (например, длина шага в беге, сила отталкивания в прыжках, успешность борьба под щитом в баскетболе, выполнение подачи в теннисе или волейболе, процент точных длинных передач в футболе).

  3. Результаты другого теста, информативность которого доказана если проведение теста-критерия громоздко и сложно и можно подобрать другой тест, столь же информативный, но более простой. Например, вместо газообмена определять ЧСС). Этот частный случай, когда критерием является другой тест, называют конкурентной информативностью.

  4. Принадлежность к определенной группе. Например, можно сравнивать мастеров спорта и спортсменов низших разрядов. Принадлежность к одной из этих групп является критерием. В данном случае используются специальные разновидности корреляционного анализа.

  5. Так называемый составной критерий. Например, сумма очков в многоборье. При этом виды многоборья и таблицы очков могут быть как общепринятыми, так и заново составленные экспериментатором. Составным критерием пользуются, когда нет единичного критерия (например, если стоит задача оценить общую физическую подготовленность, мастерство игрока в спортивных играх и т.п., ни один показатель, взятый сам по себе, не может служить критерием).

Пример определения информативности одного и того же теста  скорость бега 30 м с ходу у мужчин  при разных критериях приведен в таблице 4.1 (эти данные получены на 62 спортсменах, показавших в прыжках в длину результаты от 6 до 7,72 см; результаты в троеборье брались на основании опроса).

Таблица 4.1 – Информативность теста «бег 30 м с ходу» (n = 62)

Критерий

Мера критерия

Коэффициент информативности

Прыжок в длину с разбега.

Результат прыжка, см

0,658

Разбег в прыжках в длину.

Скорость бега на последних 10 м, м/с

0,918

Спортивные достижения в прыжках в длину.

Разряд по легкой атлетике (от второго до мастера спорта).

0,715

Результат в троеборье: 100 м, прыжки в длину, бег 100 м с/б.

Сумма очков.

0,764

Вопрос о выборе критерия является, по существу, самым важным при определении реального значения и информативности теста. Например, если стоит задача определить информативность такого теста, как прыжок в длину с места у спринтеров, то можно выбрать разные критерии: результат в беге на 100 м, длину шага, отношение длины шага к длине ног или росту и т.п. Информативность теста при этом будет меняться (в приведенном примере она возрастала от 0,558 для скорости бега до 0,78 для отношения «длина шага/длина ноги»; испытуемыми были 44 спринтера, показавших результаты в беге на 100 м от 11,6 до 10,5 с).

В видах спорта, где нельзя объективно измерить спортивное мастерство, стараются обойти эту трудность введением искусственных критериев. Например, в командных спортивных играх эксперты располагают всех игроков по их мастерству в определенном порядке (т.е. составляют списки 20, 50 или, скажем, 100 сильнейших игроков). Место, занятое спортсменом (его ранг), рассматривается в качестве критерия, с которым и сравнивают результаты тестов с целью определения их информативности.

Возникает вопрос: зачем использовать тесты, если известен критерий? Например, не проще ли устроить контрольные соревнования и определить спортивный результат, чем определять достижения в контрольных упражнениях? Однако:

  1. Спортивный результат не всегда можно или целесообразно определить (например, нельзя часто проводить соревнования в марафонском беге, зимой нельзя обычно зарегистрировать результат в метании копья, а летом  в лыжных гонках).

  2. Спортивный результат зависит от многих причин (факторов), таких, например, как сила спортсмена, его выносливость, техника и т.п. Применение тестов дает возможность определить сильные и слабые стороны спортсменов, оценить каждый из этих факторов в отдельности.

studfiles.net

ИНФОРМАТИВНОСТЬ ПУНКТОВ И ТЕСТА — КиберПедия

Будучи психометрическим подходом, IRT предоставляет информацию о пунктах и тесте в целом. При этом для получения информации о тесте в целом в IRT-анализе объединяются характеристики отдельных пунктов. Таким образом, характеристики пунктов – такие, как сложность и дискриминативность – могут использоваться для оценки отдельных пунктов и улучшения общего качества теста.

 

Характеристические кривые пунктов

Рисунок 13.1.Характеристические кривые пунктов

 

Разработчики тестов, применяющие в своей работе IRT, для наглядного представления и оценки параметров пунктов теста часто используют т.н. характеристические кривые пунктов (Item characteristic curves, ICC). На характеристической кривой (примеры которой приведены на Рисунке 13.1) отображаются вероятности, с которыми респонденты некоторого спектра выраженности признака будут давать правильные ответы на данный пункт. Кривые, изображенные на Рисунке 13.1, основаны на гипотетических данных по пятипунктовому математическому тесту, обсуждавшихся выше. На оси X откладывается широкий спектр уровней выраженности признака, на оси Y – вероятность правильного ответа от 0 до 1.0. Для каждого пункта строится своя кривая, и можно использовать ее для нахождения вероятности того, что респондент с заданной выраженностью признака ответит на пункт правильно. Взгляните на характеристическую кривую для пункта 1 – какова вероятность того, что человек со средним уровнем математических способностей ответит на этот пункт правильно? Находим на кривой пункта 1 точку, лежащую прямо над отметкой «0» на оси X (как вы помните, выраженность признака выражается в z-оценках, поэтому 0 обозначает среднюю выраженность признака) и видим, что эта точка лежит в промежутке между 0.80 и 0.90 на оси Y. При рассмотрении остальных кривых становится очевидно, что человек со средним уровнем математических способностей имеет шанс около 0.65 для правильного ответа на второй пункт, 0.5 для правильного ответа на третий пункт, 0.17 – для пятого пункта. Таким образом, характеристические кривые содержат информацию о вероятностях, с которыми респонденты с любым уровнем выраженности признака правильно ответят на любой из пяти пунктов. Заметьте, что последовательность расположения кривых слева направо по оси X отражает уровень сложности соответствующих пунктов. Пункт 1, чья кривая лежит левее всех остальных, наименее сложен, пункт 5, чья кривая крайняя справа, наиболее сложен.

Характеристические кривые пунктов строятся на основе математических моделей, описанных выше (в нашем случае это уравнение для модели Раша). Чтобы построить характеристическую кривую пункта, можно последовательно применять соответствующую математическую модель для вычисления вероятностей правильного ответа на большом спектре уровней выраженности признака. Подставляя в уравнение значения сложности пункта и какого-либо уровня выраженности признака (например, -3.0), получаем вероятность правильного ответа на данный пункт респондента с данной выраженностью признака. Далее мы можем подставить в уравнение другой уровень выраженности признака (например, -2.9) и оценить вероятность правильного ответа для этого уровня. После повторения этой процедуры для множества различных значений выраженности признака можем просто построить график полученных вероятностей. Линия, соединяющая эти вероятности, и будет представлять собой характеристическую кривую пункта. Данная процедура проводится отдельно для каждого из пунктов теста. Для построения графика на Рисунке 13.1 было использовано приложение Microsoft Excel, при этом для пяти пунктов были вычислены 305 вероятностей (по 61 на каждый пункт) и построены их плавные линейчатые графики.

 

Информативность теста

С точки зрения классической теории тестов, важной психометрической характеристикой теста является надежность. Как вы помните, в классической теории тестов существует несколько коэффициентов, оценивающих надежность. Например, в качестве такой оценки надежности можно вычислить коэффициент «альфа». Здесь важно заметить, что при этом вычисляется лишь один коэффициент надежности, относящийся ко всему тесту в целом и означающий степень корреляции наблюдаемых тестовых баллов с истинным значением признака. Идея о том, что существует единая надежность для всего теста – важный аспект, по которому классическая теория тестов отличается от IRT.

С точки зрения IRT, у теста нет единой «надежности». Напротив, для одних людей тест может обладать более сильными психометрическими качествами, чем для других. Другими словами, на одних уровнях выраженности признака тест может быть более информативным, чем на других уровнях выраженности признака. Представьте четырех человек с различной выраженностью какого-либо признака – Элизабет, Мэри, Крис и Лану. Можно изобразить их «истинные» уровни выраженности признака относительно друг друга на континууме:

 

РИСУНОК

 

С точки зрения выраженности у них измеряемого психологического признака, Элизабет и Мэри находятся ниже среднего и при этом относительно мало отличаются друг от друга. Крис и Лана находятся на относительно высоком уровне выраженности признака и при этом тоже мало отличаются друг от друга.

Целью теста зачастую является дифференцировать (т.е. отличить) людей с относительно сильной выраженностью признака и людей с относительно слабой выраженностью признака. Тест является информативным в том случае, когда он способен точно определить различия между респондентами при разных уровнях выраженности признака. Возвращаясь к нашим четырем респондентам: очевидно, что даже средний с точки зрения психометрического качества тест должен быть способен уловить большое различие между двумя респондентами со слабой выраженностью признака (с одной стороны) и парой респондентов с сильной выраженностью признака (с другой стороны). Тем не менее, если исследователь хочет выявить более мелкие и более тонкие различия между Элизабет и Мэри или между Крисом и Ланой, ему понадобится тест с куда более высоким психометрическим качеством. IRT допускает возможность того, что тест может быть более пригоден для диагностики различий между Крисом и Ланой, нежели для диагностики различий между Элизабет и Мэри. Другими словами, при высоких уровнях выраженности признака тест может быть более информативен, чем при низких.

Как может тест предоставлять информацию, различающуюся в зависимости от уровня выраженности признака? Как получается так, что тест отличает людей с относительно сильно выраженным признаком, но не отличает людей с относительно слабым уровнем выраженности этого признака? Представьте себе двухпунктовый тест на математические способности:

 

1. Каков квадратный корень из 10 000?

2. Найдите x в следующем уравнении: 56 = 4x2 + 3y – 14.

 

Оба пункта требуют довольно высокого уровня математических способностей (по крайней мере, по сравнению с некоторыми другими примерами, которые можно было бы себе представить). Если у Элизабет и Мэри низкие математические способности (например, обе они умеют производить сложение и вычитание, хотя Мэри в этом немного лучше, чем Элизабет), они не дадут правильного ответа ни на один из пунктов. В связи с этим и Элиабет, и Мэри получат за выполнение теста один и тот же балл, и данный двухпунктовый тест не будет способен различить их математические способности. С другой стороны, Крис и Лана обладают хорошими математическими способностями, и каждый из них может правильно ответить по крайней мере на один из пунктов. Так как Лана несколько более способна, чем Крис, есть вероятность, что она правильно ответит даже на оба пункта, хотя Крис, скорее всего, ответит лишь на один. Таким образом, Крис и Лана могут получить за выполнение теста разные баллы. Как видим, в нашем гипотетическом примере тест способен отличить Криса от Ланы, а также пару «Крис и Лана» от пары «Элизабет и Мэри», однако тест не может дифференцировать математические способности Элизабет и Мэри. В целом, если пункты теста имеют характеристики (например, сложность), которые при одних уровнях выраженности признака представлены сильнее, чем при других, психометрическое качество теста может различаться в зависимости от выраженности признака. Рассмотренный математический тест включает в себя лишь два пункта с высоким уровнем сложности; как следствие, этот тест недостаточно информативен для диагностики различий между людьми со слабой выраженностью признака.

IRT может быть использована для точной оценки психометрического качества теста в широком спектре уровней выраженности признака. Такую оценку можно представить как двухэтапный процесс. Сначала по всему спектру уровней выраженности признака оценивается психометрическое качество каждого отдельного пункта – его информативность. Для вычисления этого показателя используются вероятности правильного ответа на данный пункт для определенного уровня выраженности данного признака (см. характеристические кривые пунктов). Информативность пункта для модели Раша вычисляется по формуле (Embertson & Reise, 2000):

 

,

 

где I(θ) – информативность пункта при уровне выраженности признака (θ), а Pi(θ) – вероятность того, что респондент с данным уровнем выраженности признака ответит на данный пункт правильно. Например, в Таблице 13.2 значение сложности для пункта 1 составляет -1.61. Для респондента с уровнем выраженности признака на три стандартных отклонения ниже среднего вероятность правильного ответа на пункт 1 составляет 0.20 (см. уравнение вероятности правильного ответа на пункт для модели Раша). Следовательно, для уровня выраженности признака, на три стандартных отклонения ниже среднего (θ = -3), значение информативности пункта 1 составляет 0.16:

 

 

Таблица 13.3. Пример IRT-анализа: вероятности правильного ответа, информативность пунктов и информативность теста для различных уровней выраженности признака

Выражен-ность признака P(X=1 | θ) Вероятность правильного ответа Информативность Тест
Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 5 Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 5
-3 0.20 0.09 0.05 0.02 0.01 0.16 0.08 0.05 0.02 0.01 0.32
-2 0.40 0.21 0.12 0.06 0.03 0.24 0.17 0.10 0.06 0.03 0.60
-1 0.65 0.42 0.27 0.16 0.07 0.23 0.24 0.20 0.13 0.06 0.86
0.83 0.67 0.50 0.33 0.17 0.14 0.22 0.25 0.22 0.14 0.97
0.93 0.84 0.73 0.58 0.35 0.06 0.13 0.20 0.24 0.23 0.86
0.97 0.94 0.88 0.79 0.60 0.03 0.06 0.10 0.17 0.24 0.60
0.99 0.98 0.95 0.91 0.80 0.01 0.02 0.05 0.08 0.16 0.32

 

На уровне выраженности признака, на три стандартных отклонения превышающем средний (θ = 3), значение информативности пункта 1 составляет 0.01.

Чем выше значение информативности, тем выше психометрическое качество. Следовательно, при слабой выраженности признака пункт 1 обладает более высоким психометрическим качеством, чем при сильной выраженности признака. Другими словами, этот пункт лучше дифференцирует респондентов с низким уровнем выраженности признака, чем респондентов с высоким уровнем выраженности признака (вероятно, потому, что большинство таких респондентов отвечает на пункт правильно). В Таблице 13.3 содержатся вероятности правильного ответа и коэффициенты информативности для каждого пункта на семи различных уровнях выраженности признака. Вычислив значения информативности для гораздо большего количества уровней выраженности признака, мы можем представить результаты графически, в виде т.н. кривых информативности пунктов.

На Рисунке 13.2 представлены кривые информативности каждого из пунктов гипотетического примера (пятипунктового теста на математические способности). Заметьте, что высота кривой отражает количество информации, обеспечиваемой пунктом. Высшая точка на кривой относится к такому уровню выраженности признака, при котором пункт является наиболее информативным. Фактически пункт наиболее информативен при таком уровне выраженности признака, который совпадает с уровнем его сложности. Например, пункт 1 (наименее сложный) наиболее информативен при выраженности признака -1.61, и это же значение является уровнем сложности данного пункта. С другой стороны, пункт 1 мало информативен при выраженности признака выше среднего. Заметьте также, что точка наибольшей информативности отличается от пункта к пункту. Пункт 1 наиболее информативен при относительно низких уровнях выраженности признака, пункт 3 – при средних уровнях, пункт 5 – при относительно высоких.

Конечно, при использовании психологического теста нас больше интересует качество этого теста в целом, а не качество отдельных его пунктов. Можно обобщить коэффициенты информативности пунктов и получить показатели информативности всего теста. Для этого значения информативности пунктов при каком-либо конкретном уровне выраженности признака складываются друг с другом, и получается коэффициент информативности теста при данном уровне выраженности признака. В таблице 13.3 приведены коэффициенты информативности гипотетического пятипунктового математического теста для семи различных уровней выраженности признака. Например, показатель информативности теста при средней выраженности признака (θ = 0) равняется простой сумме коэффициентов информативности пунктов при θ = 0.

 

0.97 = 0.14 + 0.22 + 0.25 + 0.22 + 0.14.

 

Аналогичным образом, вычислив коэффициенты информативности теста на множестве различных уровней выраженности признака, можно изобразить результаты графически, в виде кривой информативности теста (Рисунок 13.2).

Кривая информативности теста полезна для демонстрации качества той информации, которую тест дает при различных уровнях выраженности у респондента измеряемого признака. Заметьте, что рассмотренный гипотетический тест наиболее информативен при средней выраженности признака и наименее информативен в крайних случаях. Другими словами, наилучшим образом данный тест дифференцирует респондентов, у которых степень выраженности измеряемого признака не выходит за пределы одного или двух стандартных отклонений в какую-либо сторону от среднего. И наоборот, тест относительно плохо работает для тех респондентов, выраженность признака у которых более чем на два стандартных отклонения ниже средней, а также для тех респондентов, у которых выраженность признака более чем на два стандартных отклонения превышает среднюю.

 

Рисунок 13.2. Кривые информативности пунктов и теста

 

Задумайтесь вновь о различиях между IRT и классической теорией тестов с точки зрения их подходов к пониманию надежности. С позиций классической теории, тест обладает единой надежностью, которую можно оценить, например, при помощи коэффициента «альфа». С позиций IRT, психометрическое качество теста может быть различным при различной выраженности у респондента измеряемого признака. При всей его важности, это различие двух психометрических подходов иногда недооценивается.

 

ОБЛАСТИ ПРИМЕНЕНИЯ IRT

Пунктовая теория тестов (IRT) – это теоретический подход, предлагающий свои вычислительные модели, которые применяются сегодня для проведения измерений во множестве областей психологии. Вероятно, коэффициенты сложности и дискриминативности пунктов интуитивно наиболее очевидны в сфере измерения способностей. В самом деле, на протяжении нескольких лет Служба тестирования в образовании (Educational Testing Service) использовала IRT как психометрическую основу для теста академических способностей SAT. Кроме того, несколько штатов США используют IRT в качестве основы для диагностики достижений в системе государственных школ. Помимо измерения способностей, IRT применялся и для диагностики отношений (напр., Strong, Breen, & Lejuez, 2004) и личностных черт (Chernyshenko, Stark, Chan, Drasgow, & Williams, 2001; Fraley, Waller, & Brennan, 2000).

 

cyberpedia.su

3. Основы теории тестов: Тесты и тестирование

Тесты – стандартизированные методики психодиагностики, позволяющие получить сопоставимые количественные и качественные показатели степени развитости изучаемых свойств.

Спортивный тест-специальные двигательные действия, с помощью которых определяется спортивный результат.

Требования тестов:

-Информативность - степень точности, с которой он измеряет свойство (качество, способность, характеристику), для оценки которой используется. 

-Надежность - степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях.

-Согласованность - (разные люди, но одинаковые приборы и одинаковые условия)

-Стандартность условий - (одинаковые условия при повторных измерениях)

-Наличие системы оценок - (перевод в систему оценок. Как в школе 5-4-3-2.)

Надежность теста по коэффициенту корреляции

Таблица №10 .

Надежность тестов.

Корреляции

прыжок1

прыжок2

прыжок1

Корреляция Пирсона

1

,939

Знч.(2-сторон)

 

,000

N

20

20

прыжок2

Корреляция Пирсона

,939

1

Знч.(2-сторон)

,000

 

N

20

20

Вывод: Надежность теста хорошая, т.к. коэффициент корреляции r=0,939

Информативность теста по коэффициенту корреляции

Таблица № 11.

Информативность тестов

Корреляции

бег

прыжок1

бег

Корреляция Пирсона

1

-,918

Знч.(2-сторон)

 

,000

N

20

20

прыжок1

Корреляция Пирсона

-,918

1

Знч.(2-сторон)

,000

 

N

20

20

Таблица №12 .

Градация уровней информативности тестов

Коэффициент информативности

Информативность теста

>0,90

отличная

0,80 – 0,90

хорошая

0,70 – 0,80

удовлетворительная

<0,70

сомнительная

Вывод: информативность теста прыжок в длину с места как теста определяющий скоростные качества является отличной r=0,918

4. Основы теории оценок

ОЦЕНКА — понятие математической статистики, эконометрики, метрологии, квалиметрии и других дисциплин, по-разному определяемое в каждой из них. С помощью экономических О. характеризуется и соизмеряется эффективность различных ресурсов (см. Оценка природных ресурсов, Оценка трудовых ресурсов, а также Объективно обусловленные оценки, Нормативы). Статистическая О. определяется как “функция от результатов наблюдений, применяемая для оценки неизвестных параметров распределения вероятностей изучаемых случайных величин.

Провести оценивание ряда измерений:

  1. Графическое построение Т-шкалы

Таблица № 12.

Оценивание ряда измерений.

бег 100 м. (сек)

 оценка

 Т

16,6

2

54,5

17,6

2

43,7

16,6

2

54,5

16,2

3

58,9

17,3

3

47

16,7

3

53,5

15,5

3

66,4

16,5

3

55,6

16,3

3

57,8

16,5

3

55,6

18,4

4

35,1

18,1

4

38,3

16,2

4

58,9

16,8

4

52,4

15,9

4

62,1

16,5

4

55,6

17,6

4

43,7

18,1

4

38,3

18,2

4

37,3

18,8

5

30,8

срзнач

17,02

 

стандоткл

0,925999

 

Нормы

Таблица № 13.

Сопоставительные нормы

 Кол.оценок

 оценки

 баллы

 баллы

1

5

18,9

 

9

4

17,0

17,9

7

3

16,1

17,0

3

2

16,1

15,2

0

1

14,2

 

Таблица № 14.

Государственный образовательный стандарт

Упражнения

Оценка

5

4

3

2

Бег 100 м

14,2

14,5

15

15,3

Гистограмма оценок

По данной гистограмме видно:

-оценку 5 получили 5 человека

-оценку 4 получили 10 человек

-оценку 3 получили 1 человек

Гистограмма оценок по ГОС

По данной гистограмме видно:

- оценку 5 получили 0 человек

-оценку 4 получили 10 человека

-оценку 3 получили 1 человек

Вывод:

Физическая подготовленность данного коллектива хорошая, физическая подготовленность находится на среднем уровне, большинство ребят справились с поставленными нормами.

studfiles.net

3. Основы теории тестов: Тесты и тестирование

Тесты – стандартизированные методики психодиагностики, позволяющие получить сопоставимые количественные и качественные показатели степени развитости изучаемых свойств.

Спортивный тест-специальные двигательные действия, с помощью которых определяется спортивный результат.

Требования тестов:

-Информативность - степень точности, с которой он измеряет свойство (качество, способность, характеристику), для оценки которой используется. 

-Надежность - степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях.

-Согласованность - (разные люди, но одинаковые приборы и одинаковые условия)

-Стандартность условий - (одинаковые условия при повторных измерениях)

-Наличие системы оценок - (перевод в систему оценок.Как в школе 5-4-3-2.)

Надежность теста по коэффициенту корреляции

Таблица №10 Надежность тестов.

Корреляции

прыжок1

прыжок2

прыжок1

Корреляция Пирсона

1

,939

Знч.(2-сторон)

 

,000

N

20

20

прыжок2

Корреляция Пирсона

,939

1

Знч.(2-сторон)

,000

 

N

20

20

Вывод: Надежность теста хорошая, т.к. коэффициент корреляции r=0,939

Информативность теста по коэффициенту корреляции

Таблица № 11 Информативность тестов

Корреляции

бег

прыжок1

бег

Корреляция Пирсона

1

-,918

Знч.(2-сторон)

 

,000

N

20

20

прыжок1

Корреляция Пирсона

-,918

1

Знч.(2-сторон)

,000

 

N

20

20

Таблица №12 Градация уровней информативности тестов

Коэффициент информативности

Информативность теста

>0,90

отличная

0,80 – 0,90

хорошая

0,70 – 0,80

удовлетворительная

<0,70

сомнительная

Вывод: информативность теста прыжок в длину с места как теста определяющий скоростные качества является отличной r=0,918

4. Основы теории оценок

ОЦЕНКА — понятие математической статистики, эконометрики, метрологии, квалиметрии и других дисциплин, по-разному определяемое в каждой из них. С помощью экономических О. характеризуется и соизмеряется эффективность различных ресурсов (см. Оценка природных ресурсов, Оценка трудовых ресурсов, а также Объективно обусловленные оценки, Нормативы). Статистическая О. определяется как “функция от результатов наблюдений, применяемая для оценки неизвестных параметров распределения вероятностей изучаемых случайных величин.

Провести оценивание ряда измерений:

  1. Графическое построение Т-шкалы

Таблица № 12 Оценивание ряда измерений.

бег 100 м. (сек)

 оценка

 Т

16,6

2

54,5

17,6

2

43,7

16,6

2

54,5

16,2

3

58,9

17,3

3

47

16,7

3

53,5

15,5

3

66,4

16,5

3

55,6

16,3

3

57,8

16,5

3

55,6

18,4

4

35,1

18,1

4

38,3

16,2

4

58,9

16,8

4

52,4

15,9

4

62,1

16,5

4

55,6

17,6

4

43,7

18,1

4

38,3

18,2

4

37,3

18,8

5

30,8

срзнач

17,02

 

стандоткл

0,925999

 

Нормы

Таблица № 13 Сопоставительные нормы

 Кол.оценок

 оценки

 баллы

 баллы

1

5

18,9

 

9

4

17,0

17,9

7

3

16,1

17,0

3

2

16,1

15,2

0

1

14,2

 

Таблица № 14 Государственный образовательный стандарт

Упражнения

Оценка

5

4

3

2

Бег 100 м

14,2

14,5

15

15,3

Гистограмма оценок

Гистограмма оценок по ГОС

Вывод:

Физическая подготовленность данного коллектива находится на среднем уровне большинство ребят справились с поставленными нормами.

studfiles.net


Смотрите также