logo
Ответы по психологии

Проблема валидности и надежности психодиагностических методик.

Валидность и надежность – основные характеристики психодиагностических методик. Данные, полученные ПД методикой, не могут считаться достоверными, если у нее невысокие коэффициенты валидности и надежности. Фактически все остальные психометрические требования (стандартизация, внутренняя согласованность, дискриминативность) призваны обеспечить повышение показателей надежности и валидности.

Валидность (англ. valid – действительный, пригодный) – комплексная характеристика методики. В первую очередь валидность характеризует:

Валидность характеризует методику с разных сторон и в зависимости от этого выделяют разные виды валидности. Основными видами являются: содержательная, конструктивная и критериальная.

Критериальная валидность характеризует вероятность достоверности интерпретации данных (диагноза и прогноза). Название происходит из-за того, что в процессе изучения критериальной валидности происходит сравнение данных тестов с критериями валидизации.

Критерий валидизации – это непосредственная и независимая от теста мера психического свойства, на исследование которого направлена ПД методика.

В качестве критериев валидизации могут выступать:

Объективные критерии (независимы от суждений людей):

– социально-демографические и биографические данные (стаж, образование, профессия, прием или увольнение в работы);

– показатели успеваемости;

– производственные показатели эффективности выполнения отдельных видов профессиональной деятельности;

– результаты реальной деятельности (рисование, составление рассказа и т.д.);

– врачебный диагноз или другие заключения специалиста;

– контрольные испытания знаний и умений;

– данные других методик и тестов, валидность которых считается установленной;

– результаты наблюдений.

Субъективные критерии (основываются на мнениях и оценках людей) используются чаще:

– экспертные суждения (описания);

– экспертные оценки (на основе предложенной исследователем шкалы).

Чем больше экспертов – тем больше объективность.

Кроме оценочных шкал, могут быть использованы метод ранжирования и метод парных сравнений.

Методы экспертных оценок

Метод

Описание

Преимущества

Недостатки

Коллективная оценка

выработка общего компромиссного мнения при коллективном обсуждении

небольшое количество экспертов (например, врачей-специалистов в этой области)

зависит от характера группового взаимодействия

Средневзвешенная оценка

оценки экспертами выставляются независимо друг от друга, оценки усредняются

объективность повышается при большом количестве экспертов

не зависит от характера группового взаимодействия.

Критериальная валидность подразделяется на диагностическую и прогностическую валидности. Диагностическая валидность – это способность методики различать испытуемых на основании диагностического признака. То есть способность методики поставить точный диагноз. Например, ЗПР или УО (умственная отсталость). Эту валидность образно можно сравнить с дифференциальным порогом ощущений. Поэтому ее можно еще назвать конкурентной. Критерием для нее являются показатели настоящего состояния исследуемого психологического свойства у испытуемого. Поэтому она также может быть названа текущей. Диагностическая валидность чаще всего определяется с помощью метода контрастных групп. Например, методикой исследуется 2 группы детей с уже поставленными специалистами диагнозами ЗПР и УО. Если количественные и качественные показатели теста в этих двух группах значительно разняться, то диагностическая валидность методики – высока.

Прогностическая валидность – это степень предсказательной силы методики, то есть степень точности прогноза, который можно сделать, опираясь на данные методики (это характеристика сведения, характеризующие степень обоснованности и статистической надежности развития исследуемой психологической особенности в будущем). Еще ее называют предсказательной. Прогностическая валидность характеризует отрезок времени, на который распространяется прогноз методики. Соответственно критериями прогностической валидности будут являться данные повторных замеров и лонгитюдных исследований.

В случае невозможности валидизировать тест по текущему или прогностическому критерию может использоваться ретроспективная валидность – отражающая степень соответствия полученных результатов данным о состоянии качества в прошлом.

Валидность конструктная характеризует вероятность того, что методика измеряет именно то, для чего она предназначена. Название происходит от слова конструкт. Под конструктом в психодиагностике понимается измеряемое методикой психологическое явление. Конструктная валидность непосредственно связана с теоретической основой методики. Она обосновывает показатели (шкалы), которые выделяются в методике. Например, опросник Р.Плутчика, направленный на диагностику защитных механизмов, изначально содержал 16 шкал и 224 утверждения, а в результате исследования конструктивной валидности и изучения дискриминативности пунктов осталось сначала 184 утверждения, а затем с помощью факторного анализа и они сократились до 8 шкал и 97 утверждений. Выяснилось, что, например, шкала сублимации коррелирует со шкалой интеллеткуализации, и некоторые вопросы из первой были включены во вторую, а сама шкала сублимации отпала. Также шкала идентификации была включена в шкалу компенсации.

Валидность, определяемая с помощью факторного анализа, называется факторной валидностью. Факторный анализ – это математический метод, позволяющий устанавливать корреляции между различными шкалами теста. Его цель – сокращение шкал до числа, когда они будут независимы друг от друга.

Кроме того, как виды конструктной валидности выделяют валидность дискриминантную и конвергентную. Конвергентная валидность характеризует степень обратной или прямой связи между переменными (например, связи результатов данного теста и эталонного теста, валидность которого уже изучена). Так же она называется перекрестной, так как если между результатами теста есть корреляция, они как будто пересекаются. Дискриминантная валидность характеризует вероятность отсутствия такой связи.

Важным аспектом конструктной валидности является внутренняя согласованность3, отражающая то, насколько определенные пункты или субтесты ориентированы на изучение одних и тех же конструктов, но при этом дополняют друг друга, а не дублируют (отсутствие сильных корреляций между ними). Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждый пункт с общим результатом теста.

Валидность содержательная – это характеризует насколько полно в заданиях теста представлены стороны изучаемого явления, то есть насколько задания теста репрезентативны. Содержательная валидность противопоставляется эмпирической, которая включает в себя основные виды критериальной валидности: диагностическую и прогностическую. Их отличием является то, что эмпирическая валидность измеряется с помощью статистического коррелирования результатов методики с критериями валидизации, тогда как содержательная валидность основывается на качественных методах изучения такой корреляции. Как правило, это экспертные оценки заданий теста. Специалисты оценивают то, насколько задания теста действительно измеряют конструкт, а шкалы отражают существенные стороны изучаемого феномена.

Кроме этого, выделяют следующие типы валидности.

Инкрементная валидность – это разновидность прогностической валидности, отражающая практическую ценность методики при проведении отбора. Такая валидность характеризует степень улучшения результативности процедуры отбора с помощью данной методики по сравнению с традиционными методами (беседа, испытательный срок, анализ документов) за счет сокращения времени.

Очевидная валидность – это характеристика представлений о тесте, которые возникают у неспециалиста (испытуемого). Если содержание тестовых заданий будет представляться несерьезным, чрезмерно легким или не соответствующем сути изучаемой деятельности (не понятно зачем, какая связь?) это может привести к ироническому, негативному или враждебному отношению испытуемого к исследованию. А гипертрофированное отношение к возможностям методики, неадекватное представление о ее направленности и прогностической значимости может вызвать избыточную мотивацию – стресс – тревожность – искажение результатов (повышение показателей шкал лжи) и снижение реальной валидности. Иногда ее называют доверительной валидностью (еще см. вопрос 70).

Валидность по возрастной дифференциации – это компонент конструктной валидности, заключающийся в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям данного конструкта. Важна в тестах, как правило, неважна для личностных опросников. Измеряется путем срезовых исследований лиц разных возрастов данной методикой, но лучше – лонгитюдно.

В ПД не существует универсального подхода к характеристике валидности. Для валидизации каждого типа психодиагностических процедур и отдельных тестов могут применяться различные типы валидности. Кроме того, одни и те же данные могут использоваться для характеристики разных типов валидности.

Валидность в идеале невозможно измерить. О ней можно только судить.

Реальная валидность раскрывается только в результате накопления значительного опыта работы с тестом. Получение новых расширенных сведений о валидности в сфере приложения и эффективности методики. Так матрицы Равена изначально предназначались для диагностики особенности восприятия, а затем выяснилось, что ими можно измерять и другие познавательные процессы (память, мышление).

Реальная валидность изменяется со временем. Это объясняется устареванием возрастных статистических норм, изменением социальных норм и образцов поведения, методов обучения и содержания заданий, требований к профессиям. Это обстоятельство требует периодического контроля валидности методик (в процессе рестандартизации: см. вопрос 70).

Ни одна методика не является идеальной с точки зрения надежности. На практике редко удается получить значение коэффициентов надежности, превышающие 0,7-0,84.

Надежность – это характеристика методики, отражающая точность измерения и устойчивость результатов к действию посторонних случайных факторов.

Измеряя, мы предполагаем, что на ответы и решения испытуемого влияет в первую очередь измеряемое психологическое свойство. Если оно не изменяется в течение длительного времени, то и ответы испытуемого должны оставаться стабильными. Поэтому важно, чтобы методика была надежной.

Результат психологического исследования обычно подвержен влиянию большого количества неучитываемых факторов, которые могут значительно повлиять на результат исследования. Такие факторы делят на изменчивость самого измеряемого свойства и факторы нестабильности измерительной процедуры (в том числе состояние испытуемого). Надежность определяет, в какой степени выявленные у испытуемых различия являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.

Показатели надежности обратно пропорциональны ошибкам измерения. Ошибки измерения появляются при действии посторонних факторов на изучаемое явления. Это могут быть характеристики самого испытуемого, условия проведения, поведение экспериментатора, а также ряд других факторов, которые сложно учесть. Поэтому важнейшим средством повышения надежности методики является стандартизация процедуры исследования.

Существует несколько процедур установления надежности, в зависимости от которых выделяют надежность параллельных форм, ретестовую надежность и надежность частей теста.

Надежность параллельных форм. Испытуемые делятся на две равные группы. Одной группе предлагается форма А теста, другой – форма Б. Не более чем через неделю испытуемые проходят повторное тестирование, но уже с помощью другой формы.

Преимущество: небольшой срок перед повторным тестированием, следовательно, оценивает непосредственную временную стабильность теста.

Недостатки: сложно сделать две взаимозаменяемые и независимые друг от друга формы, для личностных опросников – практически невозможно; возможность усвоения испытуемыми принципа решения задач в первой форме может улучшить их результаты при повторном тестировании.

Ретестовая надежность характеризует степень совпадения ответов испытуемых при повторном тестировании и то же методикой. Методика считается надежной, если испытуемые сохранили свои ранговые (очередь друг за другом) места.

Преимущества: не нужна вторая форма.

Недостатки: если временной интервал между обследованиями небольшой, то испытуемые помнят свои ответы, слишком большой – само психическое свойство уже могло измениться5. Оптимально – до нескольких месяцев. Один из путей устранения влияния тренировки – формирование навыка решения перед первичным тестированием.

Надежность частей теста – путем анализа устойчивости результатов отдельных совокупностей тестовых заданий или единичных пунктов с помощью метода расщепления, когда испытуемые выполняют две равноценные части теста вместо двух форм. Метод основывается на положении, что выполнение любого однородного набора заданий (по отношению ко всему тесту) дает аналогичное распределение, что и весь тест. Пункты делятся либо на четные или нечетные (если задания в тесте строго ранжированы по степени трудности) или по принципу близости индексов трудности и дискриминативности6.

Как связаны между собой валидность и надежность?

Измеряя, мы предполагаем, что на ответы и решения испытуемого влияет в первую очередь измеряемое психологическое свойство. Если оно не изменяется в течение длительного времени, то и ответы испытуемого должны оставаться стабильными. Поэтому важно, чтобы методика была надежной. Валидность же характеризует степень, с которой измеряемое свойство действительно влияет на ответы испытуемых. Таким образом, надежность является условием валидности, а коэффициент валидности соответственно не может превышать коэффициент надежности. Если результаты теста ненадежны при соблюдении требований стандартизации, то есть изменчивы, то это означает, что на ответы испытуемого посторонние факторы влияют сильнее, чем измеряемое свойство, а значит методика его не измеряет, то есть не валидна. Однако повышение надежности может и не приводить к повышению валидности. Так личностный опросник, состоящий из одного вопроса имеет высокий коэффициент надежности, но низкий – валидности. Поэтому надежность – необходимое, но не достаточное условие валидности. Таким образом, сначала нужно исследовать методику на надежность. Если она не надежна, то она не может быть валидна. Если она надежна, то можно исследовать ее валидность: другие характеристики, характеризующие научность методики и достоверность ее результатов.