logo
Ответы по психологии

Психометрические критерии научности психодиагностических методик: валидность, надежность, дискриминативность, репрезентативность.

Психодиагностическая методика (лат. diagnostikos – способность распознавать) – это конкретный способ распознавания и измерения индивидуально-психологических особенностей человека.

Психометрия – это отрасль психодиагностики, связанная с теорией и практикой измерений в психологии. Психометрия выступает как одна из методологических дисциплин, обосновывающая требования, предъявляемые к измерительным психодиагностическим методам, процедурам их разработки и применения статистического анализа, адаптации методик к новым условиям и интерпретации тестовых данных. Тесты10 невозможны как научный инструмент без психометрического обоснования.

Чтобы с помощью психодиагностической методики можно было получить достоверную информацию, она должна отвечать психометрическим требованиям. В психометрии выделяют следующие критерии научности психодиагностических методик.

Валидность11 (англ. valid – действительный, пригодный) – комплексная характеристика методики, включающая в себя:

  1. данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников – критериями валидизации (критериальная валидность);

  2. суждение об обоснованности прогноза развития исследуемого качества (прогностическая валидность как составная часть критериальной и инкрементная как вид прогностической);

  3. способность теста дифференцировать испытуемых по изучаемому признаку (диагностическая валидность как составная часть критериальной);

  4. информацию о контингенте испытуемых (возраст, пол, образование, профессия и т.д.), для которых методика валидна и конкретные условия использования теста (требования стандартизации, а также валидность по возрастной дифференциации);

  5. отражение в содержании теста существенных признаков измеряемого феномена (содержательная валидность);

  6. адекватное отношение испытуемых к методике, мотивационный потенциал теста (очевидная валидность);

  7. статистическая связь результатов методики с изучаемыми психологическими конструктами (конструктная валидность);

  8. степень однородности и самостоятельности (внутренняя согласованность12) заданий и субтестов (конструктная валидность).

Надежность13 – характеристика методики, отражающая точность измерения и устойчивость результатов к действию посторонних случайных факторов.

Ни одна методика не является идеальной с точки зрения надежности. Существует несколько процедур установления надежности, в зависимости от которых выделяют надежность параллельных форм, ретестовую надежность и надежность частей теста.

Показатели надежности обратно пропорциональны ошибкам измерения. Ошибки измерения появляются при действии посторонних факторов на изучаемое явления. Это могут быть характеристики самого испытуемого, условия проведения, поведение экспериментатора, а также ряд других факторов, которые сложно учесть. Поэтому важнейшим средством повышения надежности методики является стандартизация процедуры исследования.

Стандартизация – 1) регламентация (требование единообразия) процедуры проведения методики для того, чтобы уменьшить влияние посторонних факторов и таким образом повысить надежность; стандартизируются: инструкция, бланки обследования, способы регистрации результатов, условия проведения, обстановка и условия работы испытуемого, временные ограничения, способы и особенности контакта с испытуемым, порядок предъявления элементов методики, характеристика контингента испытуемых и т.д.;

2) регламентация обработки данных путем преобразования полученных результатов со статистическими нормами и определение места испытуемого в выборке (выше среднего, ниже среднего и т.д.) для того, чтобы результаты разных испытуемых могли быть сопоставимы. Во втором значении под стандартизацией понимается создание нормативной базы методики с приближенным к нормальному распределением.

Нормальное распределение. Предполагается, что любое психологическое явление, которое можно измерить распределяется в выборке нормально (по закону Гаусса). То есть крайние показатели (самые низкие и самые высокие) показывает незначительное количество человек, а средние показатели – показывает большинство. Это легко понять, рассмотрев IQ (коэффициент интеллекта). Он равен реальное количество баллов, набранное испытуемым, разделить на среднее количество баллов, набранное испытуемыми того же возраста в пилотажном исследовании, и умножить на 100. Если испытуемый набрал столько же баллов, сколько и в среднем люди его возраста, то его IQ=100. Если он набрал больше баллов, то больше 100 баллов (так как 100 придется умножать на число больше единицы), а меньше – меньше 100 баллов (100 умножаем на число меньше единицы). Соответственно, чем дальше мы уходим от 100 в обе стороны – тем меньше человек покажут такие результаты. Как интеллектуально одаренных с IQ от 150, так и умственно отсталых с IQ до 70 испытуемых во много раз меньше, чем тех, кто набрал от 110 до 90 баллов.

Пилотажное исследование – это исследование, которое проводится по ходу создания психометрической методики. При проведении пилотажного исследования решаются следующие задачи:

  1. Устанавливается адекватный набор тестовых задач (внутренняя согласованность, дискриминативность задач).

  2. Стандаритизируется процедура исследования, обработки и интерпретации данных.

  3. Проверяется валидность и надежность, вычисляются их коэффициенты.

Объем выборки зависит от целей и задач методики, однако в большинстве случаев достаточно выборки 50-100 человек (Л.Ф.Бурлачук).

Выборка – это «часть индивидов, отобранная из всей совокупности индивидов (генеральной), объединенных каким-то общим признаком, интересующим исследователя, с целью изучения свойств генеральной совокупности». [Словарь практического психолога] То есть по результатам исследования выборки делается вывод о всей генеральной совокупности. Поэтому выборка должны обладать теми же свойствами, что и генеральная совокупность, то есть быть репрезентативной (представительной). Кроме того, предполагается, что в генеральной совокупности распределение всегда нормальное. Чем больше выборка (чем ближе ее объем к объему генеральной совокупности), тем она репрезентативнее.

Пилотажное исследование предшествует основному, в котором объем выборки может доходить до нескольких тысяч испытуемых (тест Векслера) для создания точной нормативной статистической базы (стандартизация во втором значении), учитывающей различные характеристики испытуемых: возраст, пол, образование и т.д..

Репрезентативность – это свойство выборочной совокупности представлять характеристики генеральной совокупности.

Любая выборка должна быть репрезентативной, то есть распределение показателей изучаемого свойства должно быть у этой выборки таким же, как и в генеральной совокупности. Это означает, что если в выборке показатель в 20 баллов набрали 30% испытуемых, а в 10 баллов – 10%, то и в генеральной совокупности 20 баллов наберут 30%, а 10 баллов –10%. Однако в реальности репрезентативность всегда определяется с определенной статистической погрешностью.

С течением времени диагностические методики требуют рестандартизации, то есть проведение повторного исследования для создания новой статистической нормативной базы с новыми средними показателями. Это обусловлено эффектом Флинна, который заключается в том, что изменение культурных и в том числе образовательных условий от поколения к поколению приводит к тому, что распределение показателей методики уже не подчиняется закону нормального распределения (в случае теста интеллекта Векслера в 70-80-х гг. стало ненормально много интеллектуально одаренных).

Психометрические требования к заданиям методики

Внутренняя согласованность – это характеристика методики, которая указывает на степень однородности состава заданий с точки зрения измеряемого качества. Критерий внутренней согласованности указывает, в какой мере задания направлены на измерение данного психологического явления, а также меру вклада каждого пункта в количественную оценку (какой-то пункт дает 1 балл, а какой-то 3). При изучении внутренней согласованности теста используется математический метод анализа корреляций14 между общим результатом и отдельными заданиями. Каждый пункт при этом получает весовой коэффициент, который и становится в дальнейшем ключом к методике. Кроме заданий на внутреннюю согласованность проверяются и субтесты.

Анализ внутренней согласованности не только повышает однородность заданий теста, но и углубляет наши теоретические представления о изучаемом явлении (конструкте) как системе: ее существенных составляющих и их взаимосвязи между собой.

Дискриминативность заданий – это способность отдельных пунктов теста дифференцировать испытуемых относительно минимального и максимального результата. Математически вычисляется (есть специальная формула!), какие пункты высоко коррелируют с результатами теста, а другие – никак. Индекс дискриминации может принимать значение от –1 до +1. Допустим, мы измеряем тревожность. Выясняется, что большинство самых тревожных испытуемых дали на этот пункт одинаковый ответ. Значит, данное задание обладает высоким уровнем дискриминативности. Или, наоборот, на другой пункт дали одинаковый ответ большинство наименее тревожных, он тоже будет с высоким индексом дискриминации (стремиться к 1). Если индекс дискриминации отрицательный, то это означает, что задача никак не коррелирует с результатами теста, а значит, непригодна. Если индекс дискриминации около 0, то необходим пересмотр формулировки задания.

Чем отличается внутренняя согласованность от дискриминативности?

Если критерий внутренней согласованности ориентирован на оценку теста в целом, то индексы дискриминативности вычисляются для отдельных пунктов. Таким образом, чем выше дискриминативность каждого задания и чем меньше они коррелируют между собой – тем выше внутренняя согласованность.

Дискриминативность относится к внутренней согласованности так же, как стабильность (неизменчивость) ответов к ретестовой надежности.

Максимальная валидность теста достигается, когда тест состоит из пунктов, которые, обладая значительной корреляцией с результатами теста (дискриминативностью), минимально коррелируют между собой (то есть в каком-то смысле такие задания самостоятельны (см. выше о валидности пункт 7), не дублируют друг друга, и тест не перегружен).

Психометрический парадокс: вопросы личностных опросников, имеющие высокий показатель дискриминативности обладают низкой стабильностью при проверки ретестовой надежности (неустойчивыми по отношению к повторяемости результата) и наоборот: низкая вариабельность (изменчивость) ответа часто наблюдается у тех вопросов, которые обладают низкой дискриминативностью.

М.Новаковская выдвинула 2 гипотезы, объясняющие психометрический парадокс.

1) многозначные вопросы поддаются различному истолкованию или испытуемому трудно принять решение об ответе: высокая дискриминативность и низкая стабильность ответа;

2) однозначные вопросы, на которые легко подобрать ответ: слабая дискриминативность и незначительная вариабельность.

Трудность заданий теста – это характеристика задания, отражающая статистический уровень ее решаемости в данной выборки. Если задачу решили 20% выборки – она статистически трудная. Ее, как правило, поставят в конце теста. Легкие задачи решают большинство испытуемых. Они используются в качестве примеров и идут в начале теста.

Дополнительные замечания:

В связи с проблемой очевидной валидности (см. вопрос 36) необходимо, чтобы задания методики соответствовали следующим требованиям:

1) избегать туманных, непонятных общих названий на бланках и опросных листах, тестовых тетрадях и т.д.;

2) ввести в инструкцию краткую характеристику цели исследования (иногда ложную, как в «Пиктограмме»);

3) использовать понятные формулировки, естественные для данных испытуемых, без специальной терминологии;

4) использовать естественные задания с легкой для понимания инструкцией.

Адаптация методики – комплекс мероприятий, обеспечивающих адекватность теста в новых условиях его применения. Адаптация необходима в связи с культурными особенностями (не только разных стран, но и людей с разным уровнем образования, из разных населенных пунктов и т.д.). Актуальными являются проблемы адаптации зарубежных тестов.

Основные этапы адаптации.

  1. Анализ исходных теоретических положений.

  2. Перевод теста и инструкций к нему на язык пользователя, завершаемой лингвистической экспертной оценкой соответствия оригиналу.

  3. Проверка валидности и надежности теста, осуществляемая в соответствии с психометрическими требованиями.

  4. Стандартизация теста (в значении установления статистической нормативной базы) на соответствующих выборках.