Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Раздел 1. Введение в психодиагностику.

Раздел 1. Введение в психодиагностику.

Тема 1. 2. Краткая история психодиагностики.

Тема 1.3. Классификация психодиагностических методик

В настоящее время существует несколько достаточно обоснован­ных классификаций психодиагностических методик.

Вот некоторые наиболее распространенные классификации:

Классификация методов по Й.Шванцара:

Объединение психодиагностических методов в группы по следующим основаниям:

1) по используемому материалу (вербальные, невербальные, манипуляционные, тесты «бумаги и карандаша» и т.д.);

2) по количеству получаемых показателей (простые и комплексные);

3) тесты с «правильным» решением и тесты с возможностью различных ответов;

4) по психической активности испытуемых:

- интроспективные (сообщение испытуемого о личном опыте, отношениях): анкеты, беседа;

- экстроспективные (наблюдение и оценка разнообразных проявлений);

- проективные. Испытуемый проецирует неосознаваемые свойства личности (внутренние конфликты, скрытые влечения и др.) на малоструктурированные многозначные стимулы;

- исполнительные. Испытуемый совершает какое-либо действие (перцепционное, мыслительное, моторное), количественный уровень и качественные особенности которого являются показателем интеллектуальных и личностных черт.

Классификация методов по В.К. Гайде, В.П. Захарову:

1) по качеству: стандартизованные, нестандартизованные;

2) по назначению:

- общедиагностические (тесты личности по типу опросников Р. Кеттела или Г. Айзенка, тесты общего интеллекта);

- тесты профессиональной пригодности;

- тесты специальных способностей (технических, музыкальных, тесты для пилотов);

- тесты достижений;

3) по материалу, которым оперирует испытуемый:

- бланковые;

- предметные (кубики Коса, «сложение фигур» из набора Векслера);

- аппаратурные (устройства для изучения особенностей внимания и т.д.);

4) по количеству обследуемых: индивидуальные и групповые;

5) по форме ответа: устные и письменные;

6) по ведущей ориентации: тесты на скорость выполнения, тесты мощности, смешанные тесты; в тестах мощности задачи трудны и время решения не ограничено, исследователя интересует как успешность выполнения, так и способ решения задачи;

7) по степени однородности задач: гомогенные и гетерогенные (отличаются тем, что в гомогенных задачи схожи друг с другом и применяются для измерения вполне определенных личностных и интеллектуальных свойств; в гетерогенных тестах задачи разнообразны и применяются для оценки разнообразных характеристик интеллекта);

8) По комплексности: изолированные тесты и тестовые наборы (батареи);

9) по характеру ответов на задачи: тесты с предписанными ответами, тесты со свободными ответами;

10) по области охвата психического: тесты личности и интеллектуальные тесты;

11) по характеру умственных действий: вербальные, невербальные.

Раздел 2. Психометрические основы психодиагностики.

 

 

Тема 2.1. Тестовые нормы и проверка их репрезентативности.

Необходимость тестовых норм

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применить тест на широкой популяции, называется репрезентативностью тестовых норм. (Популяция – категория испытуемых определенной социальной, профессиональной или половозрастной принадлежности.) Норма теста – средний диапазон значений на шкале измеряемого свойства характерный для испытуемых определенной группы. Их меняют каждые 5 лет.

Репрезентативность (от фр. – показательный) тестовых норм – свойство выборочной совокупности представлять генеральную совокупность.

Репрезентативность означает, что с некоторой наперед заданной или определенной статистической погрешностью можно считать, что представление в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению. Ошибка репрезентативности – различие характеристик выборки и генеральной совокупности.

Выборка, на которой определяется статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.

2. Определение норм для теста

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. рис. 1: зона средних значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

· выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

· выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на рис.1 изображена кривая нормального распределения для теста "Прогрессивные матрицы Равена".

Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой.

Производные показатели получаются путем математической обработки первичных показателей.

Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

"Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации"

А.Анастази

3. Проблемы репрезентативности тестовых норм

В репрезентативности тестовых норм рассматривают следующие проблемы:

1. Стандартизация шкалы.

2. Статистическая природа тестовых шкал. Как повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла по шкале теста.

3. Проблема меры в психометрике. В дифференциальной психометрике отсутствуют физические эталоны: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Роль косвенных эталонов в психометрике выполняют сами тесты.

4. Оценка типа распределения тестовых баллов и проверка устойчивости распределения. Используют следующие параметры: среднее арифметическое, среднее квадратическое (стандартное) отклонение, асимметрия, эксцесс, общее неравенство Чебышева, критерий Колмогорова. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если «половинное» (полученное на половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет хорошо моделировать распределение генеральной совокупности.

Доказательство устойчивости распределения означает доказательство репрезентативности норм. Традиционный способ доказательства устойчивости сводится к выяснению хорошего приближения эмпирического распределения к какому-либо теоретическому (например, нормальному распределению, хотя может быть и любое другое).

5. Тестовые эталоны (или тестовые нормы).

5.1. Сама сырая шкала может иметь практический смысл.

5.2. Стандартизированные шкалы: Шкала IQ, Т-шкала, шкала стэнайнов (стандартная девятка), шкала стэнов.

5.З. Процентильная шкала. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Процентили указывают на относительное положение индивида в выборке стандартизации. Их можно рассматривать как ранговые градации, общее число которых равно ста, только (в отличие от ранжирования) отсчет ведется снизу. Поэтому чем ниже процентиль, тем хуже позиция индивида. Процентили отличаются от процентных показателей. Процентные показатели фиксируют качество выполненных заданий. Процентиль – это производный показатель, указывающий на долю от общего числа членов группы.

5.4. Критериальные нормы. В качестве эталона используется целевой критерий. Высокую эффективность показывают узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Хорошо зарекомендовали в сфере образования (тесты достижений и КОТ).

5.5. Социально-психологический норматив.

Независим от результатов испытаний и объективно задан. СПН реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Для анализа данных относительно их близости к СПН, рассматривается как 100% -ое выполнение теста, испытуемые делятся на 5 подгрупп. Для каждой из подгрупп подсчитывается средний процент правильно выполнивших задания.

10% – наиболее успешные, 20% – близкие к успешным, 40% – средние,

20% – мало успешные, 10% – наименее успешные.

4. Стандартизация теста.

 

 

Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Стандартизация как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.

· В первом случае, стандартизация процедуры эксперимента подразумевает регламентацию процедуры, унификацию инструкций, бланков обследованияспособов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых (указывается область применения теста). К числу требований, которые необходимо соблюдать при проведении эксперимента относятся такие: инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере; ни одному испытуемому не следует давать никаких преимуществ перед другими; в процессе эксперимента не давать отдельным испытуемым дополнительные пояснения; эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях; временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, т.к. только строгое и соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

· Во втором случае под стандартизацией понимается преобразование нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную уже не на количественных эмпирических значениях изучаемого показателя, а на оценке его относительного места в распределении результатов в выборке испытуемых.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют «сырым тестовым баллом». Для применения тестовых норм необходимо перевести тестовые баллы из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

При простейшей линейной стандартизации сначала высчитывается –

Z-показатель (стандартный балл по стандартной шкале Z).

X–X1

Z = ------------;

Sx

где Z (с центром 0 и отклонением 1), Х – сырой балл по тесту, X1 – средний балл по выборке стандартизации, Sx (о) – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике.

Например, перевод в шкалу IQ, производится по формуле:

 

IQ = 100 + 15* (X−X1 / σ)

 

В шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуемся в шкалу «стенов» (от англ. «standart ten» – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

S = 5,5 + (X−X1 / σ)

 

В шкале стенов центр равен 5.5, а отклонение равно 2.

Т-шкала Маккола (MMPI) (центр равен 50, отклонение равно 10):

 

T = 50 + 10 * (X−X1 / σ)

 

Для серьезных профессиональных тестов вместо простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению).

В результате этой, более точной процедуры разработчики снабжают пользователей теста конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Таким образом, благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых, появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях, сопоставления таких оценок в разных тестовых методиках.

Тема 2.2. Надежность теста.

Характеристика методики, отражающая точность психодиагностических измерений и устойчивость результатов теста к действию посторонних случайных факторов. Надежность говорит о воспроизводимости результатов теста при повторных исследованиях на одних и тех же испытуемых. Таким образом, можно сказать, что надежность методики позволяет судить о том, насколько внушают доверие полученные результаты. Результаты психологического исследования обычно подвержены влиянию большого количества неучитываемых факторов (эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик; физические факторы: освещенность, температура и другие особенности помещения, где проводится исследование; уровень мотивированности испытуемых на обследование; влияние личности экспериментатора). Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста.

Общий разброс (дисперсия) результатов тестового обследования можно, таким образом, представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры.

В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам. О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен.

В более узком смысле, связанном с непосредственными методами определения характеристик надежности, под этой группой показателей понимают степень согласованности результатов теста, получаемых при первичном и повторном его применении, по отношению к тем же испытуемым в различные моменты времени, с использованием разных (но сопоставимых по характеру) наборов тестовых заданий или при других измерениях условий обследования.

Распределение оценок испытуемых при выполнении теста, измеряющего одно качество, в идеальном случае совпадает с нормальным распределением, и дисперсия при этом будет «истинной» (т.е. отражающей вариативность только измеряемого признака). Каждый испытуемый занимает определенное место по оценкам теста, и теоретически это место для каждого члена выборки постоянно. В рассматриваемом случае повторное выполнение теста теми же лицами должно давать распределение мест на шкале оценок, идентичное первому. Тогда методика как измерительный инструмент точна и максимально надежна.

(Нормальное распределение – вид теоретического распределения переменных. Наблюдается при измерении признака (переменной) под влиянием множества относительно независимых факторов. Крайние значения в нем встречаются достаточно редко; значения, близкие к средней величине– достаточно часто).

Если отойти от идеального случая, то реальные оценки и ранговые места испытуемых при повторном обследовании изменяются, и их распределение в той или иной степени отличается от исходного. При этом дисперсия нового распределения выше исходного на величину дисперсии ошибки измерения. (Ошибка измерения – это статистический показатель, характеризующий степень точности отдельных измерений). Надежность теста тесно связана с ошибкой измерения, которая указывает на вероятные пределы колебаний измеряемой величины под воздействием случайных постоянных факторов.

На практике в большинстве применяемых методик редко удается получить значение коэффициентов надежности превышающие 0,7-0,8. Методика признается надежной, когда полученный коэффициент не ниже +0,75– +0,85. Лучшие по надежности тесты дают коэффициенты порядка +0,90 и более. (Коэффициент корреляции – нормированный количественный показатель, изменяющийся в пределах от -1,00 до +1,00 и оценивающий силу и направление связи между двумя переменными. Отсутствие связи выражается величинами, близкими к нулю.)

В качестве критериев точности можно отметить следующие:

При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

На практике используют три основных метода оценки надежности тестов: повторное тестирование, параллельное тестирование и расщепление.

1. Повторное тестирование или Ретестовая надежность – характеристика надежности психодиагностической методики путем повторного обследования испытуемых с помощью одного и того же теста при одних и тех же условиях, через определенный временной интервал. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности соответствует коэффициенту корреляции между результатами таких обследований.

ТЕСТ ИНТЕРВАЛ РЕТЕСТ

Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

2. Параллельное тестирование или Надежность параллельных форм – характеристика надежности с помощью взаимозаменяемых форм теста.

повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ А ИНТЕРВАЛ ТЕСТ А'

При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем с применением аналогичных дополнительных. Коэффициент надежности может быть определен и другим способом, а именно: испытуемые делятся на примерно равные группы, затем одной из них предлагается форма А теста, другой форма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.

Такая процедура обследования лишена значительной части недостатков способа по типу надежности ретестовой. Недостатки ретестовой надежности: формирование навыка работы у испытуемого, запоминание отдельных решений. Надежность параллельных форм: этих недостатков нет; возможно только усвоение принципа решения, – сокращение временного интервала, но – подходит не для всех тестовых заданий.

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Основным показателем здесь является коэффициент корреляции между результатами первичного и повторного обследований, который оценивает как временную стабильность теста (собственно надежность) так и степень соответствия результатов обеих форм теста.

Требования к построению параллельных форм:

· параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

· должны содержать одинаковое количество заданий со сходной степенью трудности;

· эквивалентность параллельных форм необходимо проверять ретестовым методом.

3. Расщепление или Надежность частей теста – характеристики надежности путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста.

Выполнение испытуемым заданий двух равноценных частей теста. Например: четные и нечетные (если задания в тесте ранжированы по степени субъективной трудности). Тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

Внутренняя согласованность (консистентность) – вид надежности теста – гомогенность набора пунктов теста, т.е. степень, в которой конкретные пункты оценивают один и тот же конструкт, насколько они измеряют одну и ту же переменную. Одни из видов оценки внутренней согласованности является надежность, определяемая расщеплением.

Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Тема 2.3. Валидность теста.

Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты.

Для характеристики способности теста измерять действительный уровень психического свойства или качества используют понятие валидности (англ. valid – действительный, пригодный, имеющий силу).

Валидность теста показывает в какой мере он измеряет то качество, для оценки которого он предназначен. Проще определяя, это оответствие теста измеряемому психическому свойству. Если высокая надежность теста говорит о том, что тест действительно «что-то» измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Инвалидные, т.е. не обладающие валидностью, тесты не пригодны для практического использования.

Валидность всегда меньше или равна надежности. Валидность не может превышать надежность теста.

Валидность является комплексной характеристикой, включающая, с одной стороны, сведения о том, пригодная ли методика для измерения того, для чего она была создана, а, с другой стороны, какова ее действенность, эффективность. В современной психометрии разработаны десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов.

Проверка валидности методики называется валидизацией - психометрическое исследование, направленное на определение валидности теста или другого измерительного инструмента. Кроссвалидизация – процедура дополнительной проверки валидности теста или результатов исследования посредством применения теста на новой выборке или проведения исследования с другими группами испытуемых, а также с применением других методов регистрации зависимых переменных.

Основным элементом практически всех этих методов является так называемый «критерий». Критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо валидной) информации об измеряемом свойстве – с критерием.

В качестве критерия валидности, используемых при валидизации теста, на практике обычно используют: объективные социально-демографические и биографические данные (стаж, образование, профессия, прием и увольнение с работы); показатели успеваемости, чаще всего являющиеся критериальной мерой тестов способностей к обучению, достижений в отдельных дисциплинах, тестов интеллекта; производственные показатели эффективности выполнения отдельных видов профессиональной деятельности, имеющие наибольшее значение при валидизации методик, используемых в профотборе и профориентации; результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т.д.) при испытании тестов общих и специальных способностей, личностных тестов; врачебный диагноз или другие заключения специалистов; контрольные испытания знаний и умений; данные других методик и тестов, валидность которых считается установленной.

Виды валидности

I. Критериальная валидность – это комплекс характеристик, включающий текущую и прогностическую валидность методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемой способности.

Текущая валидность отражает способность теста различать испытуемых по изучаемому признаку, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, уровни притязаний, вербальный интеллект, тревожность и т.д. Анализ текущей валидности имеет отношение к установлению соответствия показателей теста к реальному состоянию психологических особенностей испытуемого в данный момент обследования.

Сведения, характеризующие степень обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляет прогностическую валидность методики. Заключение об этом типе валидности может быть получено, например, путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической валидности является определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития.

Идея критериальной валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической особенности или формы поведения человека. Для измерения этого свойства теста вычисляется коэффициент корреляции тестового результата с внешним критерием.

Конкурентная валидность – разновидность критериальной валидности, оценивающей, насколько точно результаты измерения некоторой переменной, полученные с помощью данного теста, соответствуют общепринятому показателю этой переменной, измеряющемуся практически одновременно с применением данного теста в некоей нормативной выборке. Например, конкурентная валидность нового теста интеллекта оценивается посредством сравнения с другими авторитетными тестами; конкурентная валидность сокращенного личностного опросника оценивается посредством сравнения с результатами, полученными с помощью полной формы данного опросника.

С критериальной связана эмпирическая валидность – совокупность характеристик валидности теста, полученных сравнительно статистическим способом оценивания. Проводится корреляционный или регрессионный анализ связи двух рядов значений – оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна). Корреляционный анализ позволяет выявить степень сходства между экспериментальными показателями. Регрессионный анализ позволяет осуществить прогнозирование динамики развития какого-либо фактора или признака.

Итак, критериальная валидность оценивает индивидуальную диагностичность и прогностичность теста.

II. Содержательная валидность (логическая) характеризует степень репрезентативности (показательности) содержания заданий теста измеряемой области психических свойств. Содержательная валидность означает, что тест является валидным по мнению специалистов. Задания теста оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждение о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения.

Широкое использование экспертных оценок сближает содержательную валидность с процедурой определения критериальной и эмпирической валидности. Однако существенным различием между содержательной и критериальной валидностью является то, что экспертные оценки при анализе содержания являются критерием самого теста, в то время как при критериальной валидизации они относятся к испытуемым из выборки стандартизации. В эмпирической валидности используются статистические методы, в содержательной – качественная процедура получения информации описательными методами.

III. Конструктная валидность (концептуальная) – способность результатов теста репрезентировать исследуемое качество. Степень обоснованности теории, положенной в основу создания данного теста.

Она устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста. Обращение к концептуальной валидности необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа выводов о том, в какой степени испытуемые обладают некоторой определенной психологической характеристикой. Причем измеряемая психологическая характеристика не может быть отождествлена с какой-либо наблюдаемой особенностью поведения, а представляет собой теоретическую концепцию. Примерами таких концепций являются интеллект, черты личности, мотивы, установки и т.д. Конструктивная валидность требует постепенного накопления информации об изменчивости оценок. Фиксируются и анализируются данные, проливающие свет на отдельные черты и природу изучаемого явления, а также условия, воздействующие на его развитие и проявление.

Важнейшим аспектом концептуальной валидности является внутренняя согласованность, отражающая то, насколько определенные пункты (т.е. задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одного и того же явления. Одним из компонентов концептуальной валидности является валидность по возрастной дифференциации. Она связана с возрастной динамикой исследуемого качества.

Особое место в процедуре определения конструктивной валидности занимает факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными (скрытыми) факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т.е. определить факторный состав и факторные нагрузки результата теста (факторная валидность).

Факторный анализ – комплекс аналитических методов, позволяющий выявить скрытые признаки, а также причины их возникновения и внутренние закономерности их взаимосвязи. Позволяет найти совокупность факторов, наиболее значимых для данных конкретных экспериментальных условий, а также внутренние закономерности их взаимосвязи.

IV. Важное значение имеют данные не только о высокой корреляции теста с некоторыми другими переменными, с которыми он теоретически должен коррелировать. Существенно также, чтобы тест не был тесно связан с теми параметрами, с которыми он не должен коррелировать. В соответствии с этим различают конвергентную и дискриминативную валидность.

Конвергентная валидность есть степень статистической зависимости (скоррелированности) данного теста с другими тестами (факторами, переменными), с которыми он, согласно теоретическим представлениям, должен быть связан. Отсутствие значимой корреляции с факторами, неизмеряемыми тестом обеспечивает дискриминативную валидность. Дискриминативная валидность есть степень статистической независимости данного теста от других тестов (факторов, переменных), с которыми он, согласно теоретическим представлениям, не должен быть связан. Так, с точки зрения теории Г. Айзенка тест Дж. Тейлор МАS обладает дискриминативной валидностью по отношению к фактору «экстраверсия-интроверсия» и определенной конвергентной валидностью по отношению к фактору «нейротизма».

V. Очевидная валидность (внешняя) – представление о тесте, сфере его применения, результативности и прогностической ценности, которая возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, которое формируют психологи.

VI. Инкрементная валидность – практическая ценность методики при проведении отбора.

Таким образом, для вычисления количественного показателя – коэффициента валидности – сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию у тех же лиц, используются разные виды линейной корреляции (по Спирмену, по Пирсону). Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Как

Последнее изменение этой страницы: 2017-09-12

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...