Категории:

Дом Здоровье Зоология Информатика Искусство Искусство Компьютеры Кулинария Маркетинг Математика Медицина Менеджмент Образование Педагогика Питомцы Программирование Производство Промышленность Психология Разное Религия Социология Спорт Статистика Транспорт Физика Философия Финансы Химия Хобби Экология Экономика Электроника

Неинтеллектуальные факторы в измеряемом интеллекте

Английский психолог Ч. Э. Спирмен показал наличие, по крайней мере, одного общего, или генерального фактора (g)в степени успешности выполнения школьных тестов и тестов достижений, требующих интеллектуальной способности. Он тж доказал существование специфических факторов (s), показав, что несмотря на выявленную тенденцию выполнять большинство тестов на одном и том же уровне, все же нек-рые люди исключительно хорошо справляются с решением задач в специфических областях. Вопрос о том, является ли интеллект преимущественно единственной способностью (g)или разнородной совокупностью многочисленных специфических интеллектуальных способностей (s), служил предметом споров среди психологов на протяжении трех поколений и до сих пор остается неразрешенным.

В начале 1930-х гг. было идентифицировано третье измерение челов. интеллекта: качественные особенности индивидуального уровня интеллекта чел., отражаемые в его наблюдаемой «личности» или «темпераменте», к-рые присущи только данному чел. и к-рые столь же важны, как и измеримые элементы, для понимания его уровня успешности адаптации в повседневной жизни. Впоследствии Векслер назв. эти компоненты неинтеллектуальными факторами в общем интеллекте. Даже когда мы имеем дело исключительно с измеряемым интеллектом, от 30 до 50% полной факторной дисперсии индивидуальных различий в измеряемом интеллекте остается не объясненной. Это означает, что остаточная вариация связана с неинтеллектуальными факторами и состоит из таких компонентов, как побуждение (драйв), энергичность, импульсивность и т. д. С тех пор был идентифицирован целый ряд др. неинтеллектуальных факторов, необходимых для полной оценки интеллекта индивидуума, в т. ч.: а) мотивация; б) физ. здоровье; в) уровень устремлений; г) тревожность; д) уровень зрелости и личностной интеграции; е) история жизни.

Осн. надежда, возлагаемая Бине на первый успешный разраб. им и Симоном в 1905 г. тест, связывалась с тем, что он послужит объективным критерием при установлении того, какие дети смогут обучаться в общественных школах, каким потребуется дополнительное или специализированное обучение, а каким их низкий уровень интеллектуального развития (т. е. умственная отсталость) не позволит извлечь выгод из традиционного школьного обучения и, следовательно, потребуется воспитание в специальных интернатах. Однако его тест не только обеспечивал основу для дифференциации видов обучения, необходимых для этих трех широких категорий детей (обычные школьные классы, специализированные школьные классы и воспитательные учреждения (интернаты)), но и оказался полезным для более тонкой дифференциации внутри каждой из этих широких категорий.

Сначала Бине, а впоследствии и Векслер, пришли к выводу о том, что интеллект — это качество целого чел., а не отдельный компонент, к-рый можно изолированно измерить IQ-тестами. Суждение о чьем-либо уровне интеллекта требует оценки эффективности текущей адаптации в повседневной жизни, определяемой с учетом анализа клинической истории, существующих жизненных обстоятельств и текущего поведения индивидуума, равно как рез-тов интеллектуального теста. Поскольку чей-либо уровень достижений является рез-том как прошлых, так и текущих способностей и опыта, он может меняться по мере изменений в состоянии индивидуума или его среды. Такие изменения могут вызывать сдвиги (умеренные или значительные) функционального уровня адаптивного интеллекта индивидуума.

Тесты интеллекта

Арифметические умения, осведомленность, мышление, манипуляция объектами, словарный запас и функции памяти представлены в наборе заданий, использующихся в тестах измеряемого интеллекта, независимо от того, наз. ли они тестами школьных достижений, тестами академических способностей (SATs)или тестами интеллекта. Цель каждого из этих типов тестов — оценить выполнение всей совокупности заданий, с тем чтобы получить оценку общего интеллектуального потенциала. Многочисленные тесты этих типов, в силу своей функциональной эквивалентности, могут комбинироваться для получения одной М. и. Чтобы определить IQ к.-л. чел. или его относительное положение в распределении совокупности, можно суммировать рез-ты, полученные по тестам кажущихся несопоставимыми способностей, поскольку известно, что оценки по таким тестам связаны (коррелируют), обеспечивая тем самым получение М. и. в целом.

Шкалы Стэнфорд-Бине и Векслера являются индивидуальными тестами интеллекта, широко используемыми сегодня пед., промышленными и клиническими психологами, чей повседневный труд включает тщательное клиническое, школьное или связанное с работой изучение интеллектуального функционирования субъекта. Групп. тесты интеллекта, такие как Тест академических способностей (SAT), обладают преимуществом одновременного проведения с большими группами людей. Однако такие тесты используются в основном в целях классиф. и скрининга в школах, в армии, при приеме на работу, в мед. учреждениях и клиниках, обслуживающих большое количество пациентов.

Необходимым предварительным условием правильной интерпретации показателя IQ-теста как одного из двух компонентов интеллекта конкретного чел. является знание осн. характеристик таких IQ показателей — в частности, знание их норм, надежности и валидности.

Нормы — это тестовые показатели, полученные на большом количестве испытуемых в процессе стандартизации теста. Эти показатели, выводимые на основе обследования широкого множества людей, служат стандартом для сравнения, относительно к-рого м. б. оценен к.-л. конкретный чел. Если такой индивидуум отличается по признаку пола, расы или социально экономическому статусу от группы, на к-рой были получены тестовые нормы, то данный тест не будет валидным для этого чел. Тестовые нормы, как правило, представлены в виде показателей умственного возраста (МА), стандартных оценок или процентилей. Умственный возраст ребенка — это возраст всех др. обследованных детей, выполнивших тест на том же уровне, что и тестируемый ребенок.

Измерение интеллекта, как оно отражается в показателях IQ тестов, показывает, как люди варьируют по степени «интеллекта» на непрерывной шкале. Процентиль — это показатель, к-рый делит генеральную совокупность выборки на 100 частей. Он указывает процент лиц, попадающих в область ниже его заданного значения. Стандартная оценка показывает отклонение индивидуального рез-та от среднего в единицах стандартного отклонения. IQ = 100 произвольно принимается за средний показатель. Это число — всего лишь условность. Стандартное отклонение (SD)является мерой изменчивости показателей IQ множества людей относительно такого среднего показателя. Обычно 50% всех людей получают показатели IQ между 90 и 110, 25% — ниже 90 и остальные 25% — выше 110. 25% совокупности с показателями IQ ниже 90 были классифицированы психологами в нисходящем порядке как тупые (dull normal), пограничные (borderline)и умственно отсталые (mentally retarded)соответственно. Для улучшения понимания специфики лечения и обучения лиц, относящихся к категории умственно отсталых, эту категорию подразделяют на подкатегории легкой, средней, тяжелой и глубокой умственной отсталости. Остальные 25% совокупности, имеющие показатели IQ выше 110, соответственно подразделяются на категории сообразительных (bright normal), обладателей превосходного (superior)и выдающегося (very superior)интеллекта в том виде, как он измеряется шкалами Векслера. Приблизительно 2% совокупности находятся в каждой из крайних категорий: выдающегося интеллекта и глубокой умственной отсталости.

Надежность указывает на согласованность (устойчивость) тестовых показателей индивидуума. Обычно ее определяют путем сравнения (вычисления корреляции) тестового показателя индивидуума с показателем, полученным в рез-те повторного проведения на нем того же самого теста или его эквивалентной формы. Валидность показывает, действительно ли используемый тест измеряет то, что он предположительно должен измерять, а именно: какие выводы можно сделать из тестового показателя в отношении того, что находится за пределами данного теста. Т. о., валидность обычно используется для характеристики того, в какой степени показатели IQ-теста коррелируют с прошлыми или будущими измерениями эффективности деятельности индивидуума, напр., академической успеваемостью или профессиональной успешностью.

Было разраб. неск. объективных мер уровня адаптивной успешности индивидуума (гл. обр. для уровней успешности детей в повседневной жизни). Коэффициенты корреляции между показателями, полученными на основе таких шкал адаптивного поведения, и показателями того же самого ребенка по тестам интеллекта варьируют от 0,58 до 0,95, указывая на то, что адаптивное поведение и измеряемый интеллект коррелируют, но не являются идентичными. Эксперты сходятся в том, что в области психич. задержки (mental retardation)использование опытным специалистом наряду с показателями IQ клиента показателей его социоадаптивного поведения и клинической истории повышало достоверность диагноза психической задержки в большей степени, чем валидность любого др. диагноза в области психопатологии.

Подобно большинству инструментов, методики психол. оценки могут использоваться в разнообразных целях, как деструктивных, так и конструктивных, и их использование невозможно отделить от опыта, компетентности и этических ценностей психолога. Большинство пользователей тестов интеллекта применяют их мудро и гуманно и в сопряжении с мерами адаптивной успешности стремятся проводить оценку т. о., чтобы максимально раскрыть потенциал каждого проходящего обследование индивидуума.

См. также Модель структуры интеллекта, Векслеровские тесты интеллекта

Дж. Д. Матараццо, Д. Р. Денвер

Меры креативности (creativity measures)

Креативность (творчество) — это область когнитивного функционирования, играющая важную роль в широком разнообразии решаемых человеком задач, причем не только в области иск-ва, но также в технике, науке и других видах деятельности.

Большинство М. к. основаны на модели «структуры интеллекта» (SI) Дж. П. Гилфорда. Согласно Гилфорду, можно провести различие между конвергентным и дивергентным продуцированием как интеллектуальными операциями.

При конвергентном мышлении происходит «сужение» области поиска — при этом рассматривается лишь несколько возможных альтернатив и выбирается единственное — наилучшее — решение задачи или проблемы. Такое мышление проявляется при ответах в тестах, предполагающих множественный выбор, а также в большинстве тестов общего интеллекта. В противоположность этому, дивергентное продуцирование предполагает способность мыслить во многих расходящихся направлениях и часто приводит к новым и оригинальным решениям проблем. Многие М. к. создавались именно для оценки дивергентного продуцирования.

См. также Тестирование способностей

Ф. Бенсон

Меры критерия (criterion measures)

М. к. или критериальная мера — это стандарт, эталон и т. п. В психологии под критерием чаще всего подразумевается стандарт (эталон) для оценивания валидности теста. Иногда термин «критерий» также используют для обозначения переменной, значения к-рой предсказываются по др. переменным, как в случае изучения множественной корреляции.

Когда дело касается оценки валидности теста, М. к. обычно выступает общепринятая мера изучаемого поведения. Чем в большей степени коррелирует тест с таким стандартом, тем выше критериальная валидность (criterion-related validity)данного теста. Критериальная валидность подразделяется на текущую (диагностическую) и прогностическую валидности. Текущая валидность (concurrent validity)определяется на основе корреляции показателей теста с замерами критерия, проводимыми примерно в одно время с тестированием. Прогностическая валидность (predictive validity)определяется на основе корреляции показателей теста с замерами критерия, полученными спустя какое-то время после тестирования.

Проблема мер критерия заключается в том, чтобы найти такие меры, которые можно было бы принять в качестве общепризнанных стандартов. Эта проблема легче решается в том случае, когда имеется возможность получить выборочные замеры деятельности (work samples),например, работы продавца. Хотя работа хорошего продавца может характеризоваться несколькими важными показателями — уровнем удовлетворенности покупателей, числом и объемом повторных продаж и числом покупателей — за М. к. чаще всего принимаются показатели общего объема продаж. Можно также сконструировать составную М. к., используя весовые коэффициенты, рассчитываемые путем усреднения оценок важности отдельных критериев, полученных на соответствующей выборке менеджеров по продажам.

Стандартизация вызывает большую проблему в ситуации, когда критерий представляет собой конструкт. Эта проблема начинается с принятия решения о том, что включать в «умение продавать». Чем более многозначен такой конструкт, тем больше возникает затруднений. Сначала необходимо определиться с тем, что должно входить в данный конструкт, затем найти способы оценки таких многозначных понятий как «социальная успешность», затем прийти к согласию в отношении того, как взвешивать эти аспекты при использовании их в сочетании — весьма непростая задача.

Чтобы использование М. к. в роли стандартов не вызывало сомнений, их следует тщательно проанализировать на предмет того, что они измеряют именно то, что должны, по предположению, измерять. К примеру, Рой Голдмен и Роберт Слотер указывают на то, что средний балл успеваемости является ненадежным критерием успешности обучения в колледже, потому что студенты с низкими способностями тяготеют к выбору легких курсов, в которых они могут добиться успеха, в то время как студенты с более высокими способностями выбирают для себя более трудные курсы, где они могут не получить высоких отметок.

Богден и Тейлор подробно рассматривают источники смещения критерия (criterion bias). Они выделяют четыре класса причин, приводящих к систематическим ошибкам: а) недостаточность критерия (criterion insufficiency), или упущение релевантных элементов; б) дефектность критерия (criterion deficiency), или включение в его состав посторонних элементов; в) смещение единиц критериальной шкалы (criterion scale unit bias), или неравномерность шкалы (напр., шкала дает слишком большое число благоприятных оценок, вместо их малого числа, к-рое бы получилось в случае их колоколообразного распределения); г) деформация критерия (criterion distortion), или неправильное взвешивание элементов в составном критерии.

К числу факторов, могущих приводить к систематическим ошибкам при измерении критерия, относят ошибку благоприятной возможности, эффект ореола и вмешательство опыта. Ошибка благоприятной возможности (opportunity bias)происходит, когда некоторые из работников, в отличие от других, имеют больше возможностей проявлять критериальное поведение, что приводит к их более высоким оценкам по критерию, хотя при равных возможностях эти другие могли бы реализовывать это поведение с неменьшим успехом. Эффект ореола (halo effect)обнаруживается при работе с оценочными шкалами, когда на оценки отдельных черт влияет общее впечатление оценивающего об оцениваемом им чел. Вмешательство жизненного опыта (experience contamination)имеет место в ситуации, когда критериальное поведение изменяется вместе с неконтролируемым фактором жизненного опыта.

См. также Тестирование способностей, Методы эмпирического исследования, Измерение

Д. Крэсвул

Меры речи и слуха (speech and hearing measures)

Измерение речи и слуха может осуществляться в клинических, промышленных и исследовательских целях. Характер используемых при этом тестов и методов зависит от целей тестирования.

Меры речи—языка

Системы речевой коммуникации.Для таких целей, как разработка высококачественной телефонной аппаратуры, речь может измеряться экспериментальными психологами или инженерами в характеристиках звуковой волны, таких как частота, амплитуда и форма звукового сигнала. Ликлайдер и Миллер упоминают графические методы, в которых используется математический анализ Фурье для разложения речи на ее составляющие частоты. Они тж описывают использование электрических методов, таких как звуковая спектрография, регистрирующая изменения паттерна интенсивности—частоты как функции времени. Это позволяет получать и сравнивать между собой визуальные паттерны (спектрограммы) различных слов или фраз.

Физиолог. функция.Физиолог. аспекты речеобразования и голосообразования могут изучаться с использованием электрофизиологических и кинофлюорографических методов.

Клиническая оценка речи—языка.Оценка функций речи и языка в клинических целях связана с оценкой одной или более подобластей речи и языка. Эти подобласти могут включать артикуляцию, или фонологию (образование речевых звуков); голос, или фонацию, и резонанс; восприятие речи, обработку речевой информ. и порождение речи, а также ее плавность (включ. заикание).

Персонал, подготовленный к проведению таких клинических оценок, включает дипломированных специалистов по патологии речи и дипломированных аудиологов. Мед. оценка является обязательным элементом общего плана оценки при определении этиологии и планировании лечения голосовых и слуховых нарушений.

Несмотря на существование целого ряда стандартизированных тестов, оценивание функций речи и языка часто включает неформальную оценку квалифицированных специалистов вследствие изменчивости культурных и региональных норм.

Измерение слуха

Электрические реакции центральной слуховой системы дают информ., представляющую как экспериментальный, так и клинический интерес. Аудиометры чистого тона генерируют колебания, к-рые могут регулироваться по интенсивности (громкости звука) тонов в диапазоне от низкой до высокой частоты (высоты звука). Подтверждение индивидуумом слышимости того или иного тона позволяет оценить его слуховой порог во всем диапазоне слышимых частот. Для графического представления результатов этого теста используется аудиограмма. Для тестируемых частот регистрируется снижение слуха в децибелах. Вслед за этим, на основе оценки данных, полученных из аудиометрических и других клинических тестов, может определяться тип потери слуха.

См. также Аудиометрия, Психофизика

Б. Мейтс

Меры центральной тенденции (central tendency measures)

Назначение М. ц. т. — служить сводными количественными характеристиками, обеспечивающими наилучшее описание множества наблюдений или оценок одним единственным числом. Термины М. ц. т. и «средняя величина» часто употребляются как равнозначные, хотя некоторые авторы сужают объем понятия «средняя величина» до среднего арифметического. Несмотря на разнообразие М. ц. т., чаще всего встречаются мода, медиана и среднее.

Мода— это просто наиболее часто встречающееся в определенной совокупности наблюдений значение переменной. При сгруппированных данных мода определяется как середина интервала группирования, содержащего наибольшее число значений наблюдаемой переменной.

Медиана— это значение переменной, делящее упорядоченную совокупность наблюдений пополам, так что одна половина значений в этой совокупности лежит ниже медианы, а др. их половина — выше медианы. Если совокупность образована нечетным числом значений наблюдаемой переменной, то медиана равна значению переменной, являющемуся серединой упорядоченной совокупности наблюдений. Если же совокупность образована четным числом значений, то медиана определяется значением, лежащим посередине между двумя значениями, находящимися в центре упорядоченной совокупности наблюдений. Медиана — более полезная мера, чем мода, и часто используется в случае скошенного (асимметричного) распределения данных. Следует, однако, отметить, что медиана нечувствительна к величине крайних значений упорядоченной совокупности наблюдений.

Среднее арифметическое— самая распространенная мера центральной тенденции — определяется как сумма значений наблюдаемой переменной, разделенная на их число. (В данной статье под «средним» подразумевается среднее арифметическое.) Использование среднего дает исследователю ряд преимуществ. В отличие от др. М. ц. т., среднее чувствительно к точному положению каждого значения в распределении переменной. Правда, это достоинство среднего арифметического оборачивается недостатком в виде повышенной чувствительности к крайним значениям переменной, и потому его иногда избегают использовать в случае сильно скошенных распределений.

Среднее — особенно полезная мера в области статистических выводов, поскольку выборочное среднее является относительно эффективной оценкой генерального среднего. Если из генеральной совокупности значений наблюдаемой переменной случайно извлечь даже большое количество выборок, не следует ожидать точного равенства выборочных средних между собой или генеральному среднему. Однако, можно доказать, что выборочные средние отклоняются от генерального среднего меньше, чем выборочные медианы отклоняются от медианы генеральной совокупности. Можно также доказать (центральная предельная теорема), что выборочное распределение среднего приближается к нормальному распределению по мере увеличения объема выборки.

См. также Статистика в психологии

А. Велл

Меры читаемости (reading measures)

Что-либо читаемое людьми может определяться как доходчивое, легкое, доставляющее удовольствие и/или интересное. Оценка читаемости текстов является сложной проблемой. Хотя большинство исследователей признают необходимость в количественных М. ч., они расходятся в том, что кладется в основу таких мер.

Широко используемые меры включают формулу читаемости Дейла—Челла (Dale—Chall Readability Formula), формулы Флеша, формулу Фарра—Дженкинса—Паттерсона (Farr-Jenkins-Patterson Formula), формулу читаемости Фрая (Fry Readability Formula), индекс Фога (Fog Index), формулу Лоджа (Lorge formula)и SMOG классификацию (SMOG Grading).

Формулы Флеша послужили стандартом для валидизации большинства других М. ч. Однако, использование этих индексов сопряжено с некоторыми проблемами.

Тем не менее, такие формулы могут служить основой при сравнении абсолютной сложности различных образцов текстов, если их применять осторожно и с осознанием их возможностей и ограничений. Двумя главными проблемами, общими для всех формул читаемости, остаются количественное определение легкости чтения и оценка читательского интереса. Стандартное решение состоит в приравнивании легкости к содержанию в образце распространенных слов или краткости отдельных слов, а также составляемых из них предложений. Интерес (при его оценке) обычно приравнивается к легко поддающимся количественному определению мерам, таким как содержание (или процент) личных местоимений, имен собственных, и характеризующих людей слов. Большинство таких мер являются предельно квалифицированными, и их обработка превращается в чисто механический процесс. Их полезность во многом определяется разумностью чел., использующего такие меры, тестируемым материалом и интерпретацией результатов с учетом тех ограничений, к-рые присущи этим мерам.

См. также Формулы Флеша

Р. Касшау

Мета-анализ (metaanalysis)

М. представляет собой попытку объединения, используя различные статистические методы, данных из разных исслед., посвященных изучению одного и того же вопроса. Он предусматривает количественную оценку степени согласованности или расхождения результатов, полученных в разных исслед. Как отметил Гласе: «Мета-анализ относится к... статистическому анализу большой совокупности результатов анализа данных из отдельных исследований в целях объединения этих данных. Он ассоциируется со строгой альтернативой бессистемным, описательным научным обзорам, которые служат типичным примером наших попыток осмыслить стремительно увеличивающееся количество научных публикаций... Современные обзоры научных исследований должны быть в большей мере техническими и статистическими, чем описательными... Данные многократных исследований должны рассматриваться как комплексное множество данных, дающее без статистического анализа ничуть не больше информации, чем результаты обработки нескольких сотен данных одного единственного исследования».

М. применялся при решении весьма широкого круга задач, лишь частично иллюстрируемых следующими примерами: исслед. валидности вопросов, используемых в опросах общественного мнения; определение воздействия претестовой сенсибилизации на выполнение психол. и образовательных тестов; анализ влияния школьной десегрегации на успеваемость уч-ся. Диапазон тем в приведенных примерах указывает на уместность использования М. в самых различных областях исслед. Хотя интерес к М. в последнее время возрос, господствующим методом сведения воедино и сравнения исследовательских данных в поведенческих науках по-прежнему остается описательный обзор литературы. Однако, с учетом распространения метааналитических методов и их дальнейшего совершенствования, традиционные научные обзоры литературы можно больше уже не считать единственно подходящим или приемлемым средством для составления сводок, сравнения и объединения данных.

О пользе мета-анализа

Обзор данных из любой области исслед. в поведенческих науках мог бы выиграть от применения мета-аналитических методов по двум причинам. Первая имеет отношение к комплексности и разнородности данных. В отличие от более парадигматических научных дисциплин, накопление знаний в которых происходит путем постепенных последовательных приращений, комплексность челов. поведения per се,помноженная на трудность применения эффективных и обоснованных мер контроля в исслед. поведения, способствует получению разнотипных и расходящихся данных, да и общий подход к проведению поведенческих исслед. яв-ся дополнительным источником вариабельности данных. Состояние изучения любой проблемы обычно характеризуется научными работами, в к-рых даются разные определения основных понятий, используются разные методы исслед. и несходные выборки испытуемых, различающиеся наборы независимых переменных и различные методы анализа данных. Неудивительно, что уже давно поднимались вопросы об адекватности и надежности описательных научных обзоров. Субъективность и возможную тенденциозность составителей научных обзоров особенно трудно преодолеть в 3 областях, а именно, при: а) отборе конкретных научных публикаций, б) оценивании исслед. с т. зр. их относительной важности и в) интерпретации значения полной совокупности научных данных. Кроме того, когда количество анализируемых в обзоре научных данных становится внушительным, адекватность описательных обзоров вызывает еще больше сомнений.

Вторая причина, по которой традиционные научные обзоры могли бы выиграть от применения метааналитических методов, связана со способностью к распознаванию ранее не установленных паттернов в совокупности данных. М. имеет результатом более точную оценку степени изменчивости или устойчивости данных в конкретных областях исслед. Обнаружение возможных различий в значимости, направленности и величине связей внутри изучаемой совокупности переменных может повысить чувствительность к ранее ускользавшим от внимания паттернам. Кроме того, поскольку М. позволяет исследовать различия в характеристиках самих исслед. как источники разброса данных, сказанное выше не ограничивается обзором данных per се, но распространяется и на условия, в к-рых данные собираются. Следовательно, обладая большей осведомленностью в отношении степени и характера вариации данных, при проведении исслед. можно сосредоточить усилия на более точных и продуманных концептуализациях и средствах измерения поведенческих феноменов.

Критика мета-анализа

Несмотря на свою жизнеспособность в качестве альтернативы традиционным способам выполнения аналитических обзоров научной литературы, М. стал объектом критики. Эту критику можно проиллюстрировать, отчасти, на примерах озабоченности специалистов тремя разными проблемами: а) проблемой «картотечного ящика», б) проблемой учета качественных различий между исслед. и в) проблемой использования множественных данных из одного исслед. В добавление к краткому изложению существа трех отмеченных видов критики, будут также указаны направления, в каких метааналитические процедуры были модифицированы в ответ на каждый вид критики.

Во-первых, проблема картотечного ящика (file drawer problem)указывает на тенденцию не публиковать статистически незначимые результаты, сохраняя их в архивах исследователей. Т. о. опубликованные исслед., по-видимому, тяготеют к смещению в сторону положительных результатов, в результате чего возрастает вероятность ошибки I-рода. В качестве корректирующей меры предлагается включение в анализ данных неопубликованных исслед., получаемых из личных и профессиональных источников. Однако далеко не все неопубликованные данные доступны (да и пригодны) для анализа. Розенталь предложил в качестве частичного решения этой дилеммы использовать оценку требуемого количества незначимых данных, к-рое нужно было бы получить для того, чтобы аннулировать отмеченный значимый эффект. Если требуемое количество дополнительных данных сравнительно велико, тогда к результатам анализа, основанного на доступных данных, можно относиться с доверием. Т. о., М. может, по крайней мере имплицитно, обращаться к проблеме систематической ошибки опубликованных научных данных.

Во-вторых, М. критиковали как метод, нечувствительный к различиям качества анализируемых исслед. Так, результаты анализа может быть сложно интерпретировать, если данные из хорошо спланированных исслед. объединяются с данными, полученными на основе неудачного экспериментального плана. Метааналитические процедуры можно ориентировать на эту проблему, используя кодирование исслед. соответственно качеству плана, с последующим введением этой кодированной переменной в анализ. В итоге можно заметить, будут ли результаты анализа различаться в зависимости от изменений качества планирования исслед. Т. о., М. можно приспособить и к влиянию различий экспериментальных планов.

В-третьих, в публикациях часто сообщаются множественные данные (multiple findings). Поскольку эти данные не являются независимыми, озабоченность вызвал вопрос о том, как учитывается зависимость между ними в ходе М. Одни исследователи выполняют анализ раздельно для каждой меры зависимой переменной, выявленной в научных публикациях, тогда как другие, в таком же М., объединяют данные, касающиеся значимости и воздействия независимой переменной на все меры зависимой переменной. Однако, если такие множественные данные включаются в анализ, его результаты могут выглядеть более надежными, чем это оправдано проведенными исслед., так как не все использованные в нем данные являются независимыми. Хотя и не существует правила, предписывающего в таких случаях выбор единственно правильного метода, то, каким эмпирическим способом решается эта проблема, может оказывать влияние на результаты М. Если множественные данные из одних и тех же исслед. включаются в анализ, число критериев значимости и величины эффектов будет больше числа независимых исслед. Несмотря на то, что такой способ повышает мощность М., он не только усложняет определение ошибки, связанной со статистическими результатами анализа, но, что гораздо серьезнее, может способствовать возникновению концептуальной неопределенности и путаницы. Бесспорно, полезно знать общую значимость и общее влияние заданной независимой переменной на весь спектр зависимых переменных, однако знание дифференциальной значимости и частного влияния независимой переменной на отдельные группы зависимых переменных может иметь более важное значение для понимания поведенческих феноменов. Тем не менее, споры по поводу относительных достоинств противоположных подходов к проблеме множественных зависимых переменных продолжаются до сих пор.

Предыдущая 92 93 94 95 96 97 9899100 101 102 103 104 105 106 107 Следующая

Последнее изменение этой страницы: 2016-07-28

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...