Внутренняя и внешняя валидность. Валидность внутренняя

Общие сведения

При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором .


Wikimedia Foundation . 2010 .

Смотреть что такое "Внутренняя валидность" в других словарях:

    Внутренняя валидность - См. Валидность. Психология. А Я. Словарь справочник / Пер. с англ. К. С. Ткаченко. М.: ФАИР ПРЕСС. Майк Кордуэлл. 2000 … Большая психологическая энциклопедия

    ВНУТРЕННЯЯ ВАЛИДНОСТЬ - См. валидность, внутренняя … Толковый словарь по психологии

    Внутренняя валидность - (internal validity) – степень уверенности, с которой можно судить о предполагаемой каузальной связи между переменными … Энциклопедический словарь по психологии и педагогике

    В. в. относится к степени уверенности, с к рой можно судить о предполагаемой каузальной связи между переменными. Эксперимент обладает В. в. в той мере, в какой наблюдаемые эффекты можно отнести к влиянию независимых переменных, а не к. л. др.… … Психологическая энциклопедия

    Словарь-справочник по педагогической психологии

    Внутренняя валидность (обоснованность) - вид теоретической валидности, выражающийся в корреляции нескольких показателей (мер) одного и того же понятия … Социологический словарь Socium

    Внутренняя валидность эксперимента - критерий оценки планирования и проведения исследования, позволяющий считать достоверными выводы относительно именно представленной в гипотезе зависимости (а не какой то другой) … Словарь по педагогической психологии

    Качество эксперимента, гарантирующее обоснованность выводов: 1) о том, что именно экспериментальный фактор является причиной изменений, зарегистрированных в зависимой переменной (внутренняя валидность);2) о том, что выявленная зависимость… … Словарь бизнес-терминов

    Валидность (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики.… … Википедия

    - (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Как в… … Википедия

Понятие «валидность» ввел в употребление Д. Кэмпбелл. Различают внутреннюю и внешнюю валидность эксперимента. Существуют также конструктная и операциональная валидности.

Внутренняя валидность характеризует меру влияния на изменение зависимой переменной тех условий (независимой переменной), которые варьирует экспериментатор. Чем больше влияют на изменение зависимой переменной неконтролируемые исследователем условия, тем ниже внутренняя валидность эксперимента. Высокая внутренняя валидность - главный признак хорошего эксперимента. Внутренняя валидность тем выше, чем больше вероятность того, что экспериментальный эффект (изменение зависимой переменной) вызван изменением независимой переменной.

Кэмпбелл выделил несколько основных факторов, нарушающих внутреннюю валидность эксперимента.
1. Селекция - неэквивалентность групп по составу, которая вызывает систематическую ошибку в результатах (например, исследуются группы младших школьников, но одни из обычных классов, а другие - из класса коррекции)
2. Статистическая регрессия - частный случай ошибки селекции, когда группы отбирались на основе «крайних» показателей (допустим, исследовали очень глупых и очень умных детей, а считалось, что взяли «середнячков»).
3. Экспериментальный отсев - неравномерное выбывание испытуемых из сравниваемых групп, приводящее к неэквивалентности групп по составу.
4. Естественное развитие - изменение испытуемых, являющееся следствием течения времени, без связи с конкретными событиями изменение состояния (голод, усталость, болезнь и др.), свойств индивида (возрастные перемены, накопление опыта и т.п.). Также на нарушение внутренней валидности влияет большое количество побочных переменных.

Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, будут соответствовать жизненной ситуации, послужившей «первообразом» для эксперимента.

Кроме того, внешняя валидность характеризует возможность обобщения, переноса результатов, полученных в эксперименте, на весь класс жизненных ситуаций, к которым принадлежит «первообразная», и на любые другие.

В принципе возможны такие эксперименты, которые не соответствуют никаким реальным жизненным ситуациям, а служат лишь для проверки гипотез, источником которых является развитая теория. Например, эксперименты по сенсорной депривации или выработке классических условных рефлексов у собак не соответствуют никакой жизненной реальности.

Внешняя валидность иногда трактуется как характеристика эксперимента, определяющая возможность переноса (обобщения) полученных результатов на различные времена, места, условия и группы людей (или животных). Однако возможность переноса является следствием двух причин:
- соответствия условий эксперимента его «первообразной» жизненной ситуации («репрезентативность» эксперимента) (например, исследование мотивации учащихся - репрезентативный эксперимент, т.к. все учащиеся находятся в ситуации учебной деятельности и так или иначе мотивированы на учебу);
- типичности самой «первообразной» ситуации для реальности («репрезентативность» ситуации). Выбранная для моделирования в эксперименте ситуация может быть совершенно нерепрезентативной с точки зрения жизни той группы испытуемых, которая участвует в эксперименте, или являться редкой и нетипичной (например, исследование поведения в экстремальных ситуациях пенсионеров села Банниково).

Кэмпбелл называет главные причины нарушения внешней валидности:
1. Эффект тестирования - уменьшение или увеличение восприимчивости испытуемых к экспериментальному воздействию под влиянием тестирования.
2. Условия проведения исследования. Они вызывают реакцию испытуемого на эксперимент. Следовательно, его данные нельзя переносить на лица, не принимавшие участия в эксперименте, этими лицами является вся генеральная совокупность, кроме экспериментальной выборки.
3. Интерференция экспериментальных воздействий. Испытуемые обладают памятью и обучаемостью. Если эксперимент состоит из нескольких серий, то первые воздействия не проходят для них бесследно и сказываются на появлении эффектов от последующих воздействий.

В реальной практике редко возникает возможность провести «правильное» исследование по всем законам и с учетом всех условий и требований. В действительности чаще оказывается невозможным подобрать репрезентативные выборки, исключить эффекты селекции, выбывания, да и возможность переноса результатов на всю популяцию зачастую оказывается нереальной. Поэтому в психологии разработаны так называемые планы квазиэкспериментов.

Квазиэкспериментом является любое исследование, направленное на установление причинной зависимости между двумя переменными («если А, то В»), в котором отсутствует предварительная процедура уравнивания групп или «параллельный контроль» с участием контрольной группы заменен сравнением результатов неоднократного тестирования группы (или групп) до и после воздействия. Выбираются две естественные группы, например два параллельных школьных класса. Обе группы тестируются. Затем одна группа подвергается воздействию (ставится в особые условия деятельности), а другая - нет. Через определенное время обе группы проходят тестирование повторно. В педагогической практике большинство исследований проведено по типу квазиэкспериментальных.

Кэмпбелл ввел еще одно важное понятие, а именно - конструктную валидность. Она характеризует правильность обозначения (интерпретации) причины и экспериментального эффекта с помощью абстрактных терминов из обыденного языка или формальной теории. Кэмпбелл отмечает, что установление внутренней валидности требует отбраковывания альтернативных объяснений связи между зависимой и независимой переменными. Установление конструктивной валидности требует отказа от альтернативных интерпретаций соотношения причины и следствия с понятиями, взятыми из той или иной теории. Таким образом, конструктная валидность определяется правильностью употребления терминов той или иной теории при интерпретации данных эксперимента.

На основе теории выдвигается гипотеза, которая в конечном счете и проверяется в эксперименте. Методики и план эксперимента должны соответствовать проверяемой гипотезе - степень этого соответствия и характеризует операциональную валидность.

Например, исследовать степень притязаний с помощью анализа степени привлекательности спутника (спутницы) испытуемого нельзя.

«Угрозы внутренней валидности» - выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.

Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, к-рые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.

Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.

Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия - даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.



Фон относится к тем изменениям контекста проводящегося исслед., к-рые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.

Инструментальная погрешность яв-ся угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, к-рые являются следствием изучаемых воздействий.

Эффект тестирования яв-ся примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.

Нестабильность ,как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперим. воздействия или спустя к.-л. время естественные изменения испытуемых и измерений.

Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они тж присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число «избранных» участников исслед., получающих и осуществляющих эксперим. воздействие.

Внешняя валидность и метаанализ

Наконец, существует понятие внешней валидности - суммы характеристик исслед., к-рая позволяет осуществлять обобщение или распространение получаемых в исслед. (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исслед.

Метаанализ. Внешняя валидность результатов исслед. существенно усиливается, когда объединяется и обобщается целый ряд исслед. одной и той же воздействующей переменной. Такая процедура называется метаанализом .В метаанализе определяются величина эффекта, оказываемого эксперим. воздействием и основными условиями исслед. на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, к-рый позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исслед. определяется простым делением разности между средними показателями по критериальной переменной в эксперим. группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исслед., не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.

Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.

См. также Контрольные группы, Экспериментальные методы, Проверка гипотезы, Измерение, Статистика в психологии

Дж. Эшер

Методы многомерного анализа (multivariate analysis methods )

Многомерность свойственна психол. данным по природе, поскольку они чаще всего состоят по крайней мере из неск. наблюдений за поведением одного человека или группы лиц. М. м. а. и были созданы для совместной обработки таких данных, напр. для их исслед. с целью обнаружения присущих им базисных характеристик либо, в случае дедуктивного подхода, для проверки или оценки априорных гипотез в отношении этих данных. В своих лучших образцах многомерный анализ представляет собой обобщение одномерного анализа, так что в тех случаях, когда данные состоят из значений только одной переменной, многомерный метод будет давать тот же результат, что и соотв. одномерный метод. Так, есть статистики, базирующиеся на многомерном распределении случайных величин, к-рые можно свести к таким хорошо известным одномерным статистикам, как хи-квадрат или t -критерий.

Многомерный анализ включает широкий спектр мат. и статистических методов и, вообще говоря, не существует общепринятого определения границ этой области. По общей договоренности, однако, такие специализированные предметы, как теория надежности или теория латентных черт, не считаются разделами многомерного анализа в силу их обособленных традиций в сфере психол. исслед. Методы анализа множественных дихотомических переменных часто рассматриваются и изучаются под своими названиями, напр. логлинейные модели. Также анализ повторных наблюдений, проведенных на одном человеке или на каком-то др. объекте, скажем, классе, обычно относится к особой области, наз. анализом временных рядов.

Модели

Многомерный анализ требует соединения трех различных типов информ. в одном методе, к-рый можно применять на практике. С т. зр. психолога, из накопленных в психологии действенных идей и знаний необходимо извлекать наиболее существенное и применять к ситуации анализа исходных данных. Такое очищенное знание, особенно если оно формализовано, наз. психол. моделью. Психол. модель обеспечивает контекст для выбора наиболее подходящего метода из множества многомерных или др. методов анализа (либо статистического описания) данных.

Второй тип используемой информ. - это мат. или структурная модель, устанавливающая отношения между осн. переменными, наблюдениями, параметрами и пр. Структурная модель является формально-математическим представлением, к-рое предполагается релевантным многомерной ситуации в силу психол. модели. В общем, многомерные методы основываются на линейных по своей природе моделях. Т. к. психол. теории часто предполагают существование нелинейных связей, иногда бывает трудно сделать допущение о линейности. И все-таки принятие этого допущения может быть оправданным в тех случаях, когда большинство зависимых (т. е. предсказываемых) переменных имеют аппроксимативно непрерывный характер. Если же эти переменные являются дихотомическими или порядковыми, будет трудно обосновать допущение о линейности иначе как соображениями удобства или аппроксимации.

Третий тип информ. - это статистическая модель. Такую модель нужно разрабатывать всякий раз, когда предполагается что-то большее, чем простое описание данных. В этом случае, помимо статистического описания данных, интерес могут представлять выводы о более широкой совокупности, на выборке из к-рой и были получены изучаемые данные. Осн. вопрос при состыковке структурной и статистической моделей - ошибка, обусловленная структурой наблюдений (error structure of observations ). Недавно полученное обобщение многомерного нормального распределения, допускающее ненулевой, но постоянный эксцесс кривых плотности распределения переменных, оказалось полезным в качестве основы для расширения традиционных методов; был тж введен ряд непараметрических методов.

В добавление к описанию распределения переменных статистическая модель должна описывать модель выборки, используемой для получения наблюдений. Обычно полагают, что таковая является моделью независимых случайных наблюдений, при к-рой на оценки каждого отдельного человека не влияют оценки др. людей. Наконец, статистическая модель должна точно определять границы области действия определенных статистических или случайных процессов.

Хотя М. м. а. можно и нужно использовать как разведочные, для проникновения в суть собранных данных и формулирования гипотез о скрывающихся за ними факторах, большой класс этих методов составляют конфирматорные (подтверждающие) по своему характеру методы, предназначенные для проверки теорий. В общем, конфирматорный подход к многомерному анализу претендует на решение следующих задач: а) оценивание параметров распределения для проверки гипотез об этих параметрах; б) определение доверительных областей измеренных значений переменных на основе обоснованного применения теории выборок и стандартных ошибок; в) оценивание адекватности гипотетической структурной модели; г) сравнение контрастных моделей; д) придание вероятностных формулировок разным результатам и е) доверительное оценивание выводов.

Методы

Осн. многомерные методы можно разбить на 3 категории: методы линейных моделей, методы линейной композиции и линейные структурные методы. Их классиф. зависит от того, в какой степени включаемые в анализ переменные можно считать случайными, а не заданными или известными, и в какой мере можно опираться на теорию малых выборок, а не только на теорию больших выборок, учитывая, что теория линейных моделей является наиболее разработанной, а структурные методы, по крайней мере, достаточно хорошо разработаны в статистическом плане. Как уже упоминалось, существуют еще и нелинейные методы.

См. также Корреляция и регрессия, Статистика в психологии

П. М. Бентлер

Методы тестирования (testing methods )

Психол. тесты разраб. для столь широкого разнообразия целей, что сами М. т. значительно варьируют от теста к тесту. Существует множество континуумов, по к-рым можно классифицировать отдельные тесты.

С т. зр. содержания тест может измерять максимальное выполнение или типичное выполнение, выявлять лучший уровень, к-рого может достичь обследуемый, либо типичный уровень его выполнения. Тесты на максимальное выполнение (maximum performance tests )предполагают правильные и неправильные ответы; тесты на типичное выполнение (typical performance tests )обычно оценивают различия в стилях выполнения, без использования сравнительной оценки ответов с т. зр. их эффективности.

Тесты на максимальное выполнение можно разделить на две категории: тесты способностей и тесты достижений. Чистые тесты способностей (ability tests )измеряют то, что чел. оказывается в состоянии делать, и обычно формулируют тестовые задания в виде проблем, непосредственным опытом решения к-рых тестируемый вряд ли обладает. Чистые тесты достижений (achievement tests )оценивают объем знаний, к-рый чел. усвоил в процессе предшествующего обучения. Однако это различие не всегда является очевидным, поскольку тесты способностей, как правило, тж предполагают использование ранее усвоенных правил и принципов. Большинство споров, касающихся ошибок в тестах способностей, концентрируются вокруг вопроса о том, в равной ли степени все потенциальные обследуемые имели в своей жизни возможность овладеть этими предполагаемыми в качестве предварительного условия умениями.

Тесты способностей и тесты достижений можно классифицировать на континууме скорость - возможность. Чистые тесты скорости (speed tests )состоят из вопросов, на к-рые легко дать правильный ответ, но этот ответ необходимо дать быстро. Чистые тесты возможностей (power tests )состоят из заданий, обычно различающихся по степени трудности, к-рые оценивают максимальное выполнение без ограничений времени на работу с ними.

В соответствии с др. принципом классиф. можно выделить тесты действия, или «практические» (performance tests ), и тесты вербальные, или «теоретические» (nonperformance tests ). Тесты действия обычно требуют явного, активного реагирования, такого как моторные и манипулятивные действия, в то время как вербальные тесты обычно предполагают письменные вербальные ответы на вопросы.

Тесты личности (personality tests )подразделяются на два осн. типа: объективные и проективные. Объективные тесты личности (objective personality tests ), такие как Миннесотский многофазный личностный опросник (ММРI ), обычно включают вопросы, предполагающие ответы в форматах «да/нет» или множественного выбора, к-рые доступны объективной количественной обработке. Эти вопросы (или утверждения), составляющие пункты теста, часто объединяются в шкалы, измеряющие различные аспекты личности. Несмотря на объективность получения оценок по отдельным шкалам, их интеграция в профили для целостного описания личности обычно предполагает привлечение субъективных суждений. Проективные тесты (projective tests )используют неопределенные стимулы, к-рые обследуемый должен интерпретировать, предположительно путем «проецирования» в эту интерпретацию отдельных аспектов своей собственной личности. Классическими проективными тестами являются Тест чернильных пятен Роршаха и Тест тематической апперцепции (ТAT ). Проведение и обработка проективных тестов требует специальной подготовки и значительного профессионального опыта.

Тесты могут разраб. для индивидуального или групп. проведения. Индивидуальные тесты, такие как IQ -тесты Векслера, требуют для проведения больших временных затрат. Групп. тесты, такие как Тест академических способностей (SAT ), требуют меньших временных затрат, но обычно не позволяют тестирующему оценивать аттитюды к тестированию, анализировать стратегию ответов или расспрашивать тестируемого в отношении специфических ответов с целью поиска дополнительной, уточняющей информ.

Тремя осн. подходами в интерпретации тестовых показателей являются нормативный, ориентированный на статистические нормы, критериально ориентированный и ипсативный. Нормативный подход используется наиболее часто и предполагает сравнение индивидуального показателя с групповым, рассматриваемыми в качестве нормы. Критериально-ориентированная система связывает уровень выполнения теста индивидуумом с абсолютными стандартами или критериями. Ипсативный подход предполагает сравнение индивидуальных показателей друг с другом.

См. также Психометрика

М. Эллин

Методы эмпирического исследования (empirical research methods )

Слово «эмпирический» буквально означает «то, что воспринимается органами чувств». Когда это прилагательное употребляется по отношению к методам научного исслед., оно служит для обозначения методик и методов, связанных с сенсорным (чувственным) опытом. Поэтому говорят, что эмпирические методы основываются на т. н. «твердых (неопровержимых) данных» («hard data» ). Кроме того, эмпирическое исслед. твердо придерживается научного метода в противоположность др. исследовательским методологиям, таким как натуралистическое наблюдение, архивные исследования и др. Важнейшая и необходимая предпосылка, лежащая в основе методологии эмпирического исслед. состоит в том, что оно обеспечивает возможность своего воспроизведения и подтверждения/опровержения. Пристрастие эмпирического исслед. к «твердым данным» требует высокой внутренней согласованности и устойчивости средств измерения (и мер) тех независимых и зависимых переменных, к-рые привлекаются с целью научного изучения. Внутренняя согласованность является осн. условием устойчивости; средства измерения не могут быть высоко или хотя бы достаточно надежными, если эти средства, поставляющие сырые данные для последующего анализа, не будут давать высокие интеркорреляции. Неудовлетворение этого требования способствует внесению в систему дисперсии ошибок и приводит к получению неоднозначных или вводящих в заблуждение результатов.

(internal validity) В. в. относится к степени уверенности, с к-рой можно судить о предполагаемой каузальной связи между переменными. Эксперимент обладает В. в. в той мере, в какой наблюдаемые эффекты можно отнести к влиянию независимых переменных, а не к.-л. др. посторонних факторов. Приписывание причинной обусловленности обычно предполагает, что две переменные - причина и следствие - будут сопряженно изменяться, однако прежде чем делать вывод о В. в., необходимо продемонстрировать, что А действительно вызывает Б (т. е. что возникновение одного лишь А приводит к Б). Можно, напр., ошибочно посчитать, что обучение решению перцептивно-моторных задач в домашних условиях а) приводит к повышению успеваемости детей в школе, б) тогда как в действительности такой желаемый рез-тат обусловлен не столько самим перцептивно-моторным обучением, в) сколько родительской заботой и вниманием. Психол. эксперименты особенно подвержены вводящим в заблуждение и непредусмотренным эффектам побочных переменных, поскольку эти эксперименты крайне редко можно реализовать в таких идеально чистых условиях, какие создаются в физ. лабораториях. Поэтому преимущественной заботой исследователей в психологии становится планирование экспериментов т. о., чтобы получаемые в них положительные рез-ты позволяли делать выводы о существовании причинно-следственных связей. В. в. отличают от внешней валидности, относящейся к возможности распространения рез-тов за пределы того специфического контекста, в к-ром была установлена В. в. Напр., если бы в тщательно контролируемых условиях удалось доказать, что переполненность клеток, в к-рых содержатся лабораторные животные, приводит к агрессивному поведению у белых крыс (В. в.), были бы у нас основания для распространения этого вывода на людей, проживающих в гетто (внешняя валидность)? В. в. следует отличать от конструктной валидности, к-рая является теорет. объяснением предполагаемой причинно-следственной связи. В большинстве случаев, однако, когда существуют все разумные основания считать В. в. установленной, исследователю хочется сформулировать концептуальную основу или конструкт для объяснения этих связей. Кроме того, В. в. не следует смешивать с внутренней согласованностью - термином из области тестирования, относящимся к интеркорреляциям внутри нек-рого набора заданий. При установлении В. в. необходимо убедиться в существовании определенной последовательности событий. Очевидно, если существует связь между А и Б, и А всегда предшествует Б, логично предположить, что А вызывает Б, а не наоборот. Помимо орг-ции максимально возможного контроля над условиями окружения и эксперим. ситуации проводящие исслед. психологи занимаются отбором испытуемых такими способами, к-рые исключают систематические ошибки при распределении их в эксперим. и контрольные группы. Они тж прибегают к тщательно разраб. эксперим. планам (учитывающим ковариацию и включающим уравновешивание) для осуществления статистических способов контроля над влиянием переменных, с тем чтобы можно было делать обоснованные суждения о причинных связях. Далее в сокращенной форме приводится проведенный Куком и Кэмпбеллом анализ проблем, возникающих при проведении квазиэксперим. или полевых исслед. в психологии, каждая из к-рых представляет собой потенциальную угрозу для В. в. Конкретные события, к-рые происходят между первым и вторым измерениями, могут изменять реакции испытуемого. Напр., если в исслед. проверяется влияние нового лекарственного препарата на уменьшение тревоги, а в период между измерениями над данной местностью пронесся торнадо, то на рез-ты измерения уровня тревоги может серьезно повлиять страх, вызванный этой катастрофой. Кроме того, изменения, естественно происходящие с течением времени и связанные с развитием испытуемых, тж могут вызывать последствия, к-рые загрязняют эксперимент (т. е. улучшения в перцептивно-моторных умениях у детей м. б., скорее, следствием простого взросления, нежели обучения). В исслед., предполагающем повторные тестирования, многократное применение того же самого инструмента могут приводить к кумулятивному эффекту, к-рый загрязняет исследуемое воздействие (напр., улучшение в оценках IQ в рез-те "обогащения" среды может стать следствием знакомства с данным интеллектуальным тестом). Механические или сделанные чел. изменения в инструментах, используемых для измерений, могут вызывать иные, нежели исследуемое воздействие, эффекты. Со временем механическая пружина может утратить свою эластичность или исследователь может изменить свою ориентацию. Пренебрежение феноменом статистической регрессии (тенденции высоких и низких оценок при повторном тестировании изменяться в сторону области средних значений) может привести к получению чрезмерно положительной и вводящей в заблуждение оценке взаимосвязи и, как следствие, к ошибочным выводам в отношении причинной обусловленности. Непреднамеренная ошибка в процессе отбора испытуемых для контрольной и/или эксперим. группы может вызывать рез-ты, связанные с этим неучтенным, но неслучайным распределением отдельных испытуемых. В этом случае различия между группами, обусловленные скорее отбором испытуемых, нежели самими исследуемыми воздействиями, могут приводить к ошибочным выводам. Любое выбывание испытуемых в ходе проведения эксперимента (сознательный уход, болезнь или даже смерть) может искажать рез-ты эксперимента, если такая убыль выходит за пределы случайного отсева. Неопределенность в отношении того, является ли А причиной или рез-том Б, неизбежно сказывается на В. в. Играет ли футбольная команда лучше из-за присутствия на трибунах большего числа болельщиков или, наоборот, большее число болельщиков собралось на игру потому, что эта команда стала играть лучше? Случайная и нежелательная коммуникация между группами, принимающими участие в исслед., разрушает эксперим. наивность испытуемых и может формировать установки и ожидания, не связанные с целями данного исслед. В свою очередь, эксперимент сам может вызывать компенсаторное соперничество, чувство обиды, возмущение и деморализацию у отдельных испытуемых и/или их групп - состояния, к-рые не имеют отношения к целям эксперимента и могут искажать его рез-ты. Поскольку экспериментаторы работаю не в вакууме, иногда случается, что по административным или соц. причинам группы получают компенсаторное воздействие, к-рое приводит к уравниванию эффектов и работает против достижения валидных рез-тов. Напр., предоставление хотя бы минимальной терапии контрольной группе пациентов, к-рые вообще не должны были получать никакой терапии, м. б. оправданным с т. зр. гуманности, но, без сомнения, наносит ущерб цели такого эксперимента. Не существует способов проведения совершенного эксперимента (т. е. такого, в к-ром достигается настолько полный контроль, что было бы невозможно отнести полученный рез-т или взаимосвязь к категории артефактов). Кроме того, обычно сам контекст психол. экспериментов делает их чрезвычайно подверженными интерпретационной двусмысленности и получению ошибочных выводов. Однако глубокие познания в этой области и внимание к тем многочисленным ловушкам, к-рые подстерегают психолога при проведении квазиэксперим. исслед., могут ему помочь планировать эксперименты, позволяющие с большей вероятностью получать истинные выводы в отношении В. в. См. также Доверительные границы, Экспериментальные планы, Проверка гипотезы, Каноны Милля, Вероятность, Статистическая значимость Э. Э. Вагнер

Другие новости по теме.

Внешняя и внутренняя валидность.

Боровкова Виктория И-01

ВАЛИДНОСТЬ (validity)-достоверность (или степень достоверности) вывода, которую обеспечивают результаты реального эксперимента по сравнению с результатами безупречного эксперимента. “В.”-центральное понятие словаря экспериментатора: оно объединяет основные цели исследования с идеальными эталонами их достижения и реальными процедурами проведения экспериментах

Глобальной целью любого экспериментального исследования является обобщение полученных результатов и вывода об экспериментальной гипотезе. Однако полное достижение этой цели возможно лишь в мысленном, безупречном эксперименте, невыполнимом на практике. Реальный эксперимент в той или иной мере репрезентирует (представляет) безупречный, и чем лучше эта репрезентативность, тем выше В. эксперимента. Таким образом, повышение В., т. е. планирование проведения эксперимента в соответствии с его безупречным образцом, является конкретной задачей исследователя, успешность решения которой зависит, во-первых, от характера, реальных условий и, во-вторых, от адекватности выбора средств. Так, источники нарушения В., (прежде всего, ненадежность и смешение) отдаляют реальный эксперимент от безупречного, а способы их контроля, позволяют приблизиться к нему, т. е. обеспечить высокую В. для обобщения экспериментальных результатов. В. полученных данных можно оценить статистически: например, В. теста (в корреляционном исследовании) определяется степенью корреляции результатов его.выполнения с изучаемым видом деятельности испытуемых.

В соответствии с различными типами безупречного эксперимента различают внутреннюю и внешнюю В.:

- внутренняя В. - достоверность выводов, которую обеспечивают результаты реального эксперимента по сравнению с результатами идеального бесконечного экспериментов. Повышение внутренней В. связано с устранением результатов действия побочных переменных и с усреднением их изменчивости и нестабильности. Внутренняя В. - первое и необходимое требование к экспериментальным выводам: эксперимент, не обладающий внутренней В., названы автором просто неудачным.

При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором.

Однако, фактически, в науке (особенно в психологии) невозможно со стопроцентной уверенностью утверждать, что внутренняя валидность соблюдена. Например, невозможно изучить какой-то психический процесс отдельно от психики в целом. Поэтому всегда при любом психологическом эксперименте учёный может лишь максимально (но не абсолютно) удалить или минимизировать разнообразные факторы, угрожающие внутренней валидности.

Пример нарушения внутренней валидности

Допустим, мы хотим проверить лекарство, от которого люди будут становиться выше. Допустим, для своих исследований мы отбираем в качестве испытуемых 13-летних подростков, измеряем их рост, и даём им лекарство. Два года спустя мы возвращаемся к теперь уже 15-летним детям и фиксируем их текущий рост. Несомненно то, что они стали выше, но без сомнения и то, что мы не можем сделать из этого вывод, что эффект роста был вызван лекарством, так как мы не учли в своём теоретическом эксперименте естественных процессов взросления. Здесь внутренняя валидность нарушена следующим образом: мы не учли побочного для нашего исследования влияния других (в данном случае - очевидных) факторов, тогда как надо было их учитывать.

- внешняя В . - достоверность выводов, которую обеспечивают результаты реального эксперимента по сравнению с результатами эксперимента полного соответствия. Повышение внешней В. обеспечивается достижением соответствия уровней дополнительных переменных в эксперименте уровням этих переменных в изучаемой реальности. Эксперимент, не обладающий внешней В., является неверным, не соответствующим поставленной гипотезе (но, быть может, пригодным для проверки, другой гипотезы).

Внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации. Например, критику психологов-экспериментаторов в том, что о студентах-второкурсниках и белых крысах они знают очень много, а обо всём остальном - очень мало, можно рассматривать как критику внешней валидности.

Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение. Абсолютным соблюдение внешней валидности считалось бы тогда, когда результаты исследования можно обобщить на любые популяции при любых условиях и в любое время, поэтому учёные говорят не о соблюдении либо несоблюдении внешней валидности, а о степени её соблюдения.

Критерии внешней валидности

Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на:

Другие популяции,

Другие условия,

Другое время.

Пример нарушения внешней валидности

Исследование Лоренса Колберга, посвящённое изучению нравственного развития детей, было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития.

Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно обобщил свою модель на представителей обоих полов.

Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные.

Соблюдение внешней валидности

Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие - например, наблюдение, межкультурные исследования и т. д.

При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, - то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.

Следует отметить, что любую переменную (фактор), отличную от независимой, также оказывающую влияние на зависимую переменную, автор называет просто “ other ” - другая. При переводе для обозначения таких переменных используются два разных термина: “побочная” - применительно к переменной, нарушающей внутреннюю В., и “дополнительная” - переменная, уровень которой входит в экспериментальную гипотезу и должен быть адекватно представлен с целью достижения внешней В. Иногда одни и те же факторы могут выступать в эксперименте и как побочные (нарушающие внутреннюю В.), и как дополнительные (влияющие на внешнюю В.). Устранение и унификация побочных факторов, повышающая внутреннюю В., может приводить к несоответствию уровней дополнительных переменных, что снижает внешнюю В. (см. Соответствие).

Операциональная В.-разновидность внешней В. для лабораторного эксперимента; соответствие (или степень соответствия) применяемых методических процедур тем теоретическим понятиям, которые входят в экспериментальную гипотезу.

Угрозы внутренней валидности

«Угрозы внутренней валидности» - выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.

Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, которые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.

Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.

Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия - даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.

Фон относится к тем изменениям контекста проводящегося исслед., которые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.

Инструментальная погрешность являются угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, которые являются следствием изучаемых воздействий.

Эффект тестирования являются примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.

Нестабильность, как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперимента воздействия или спустя к.-л. время естественные изменения испытуемых и измерений.

Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они также присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число «избранных» участников исследования, получающих и осуществляющих эксперимент

Внешняя валидность и метаанализ

Наконец, существует понятие внешней валидности - суммы характеристик исследований, к-рая позволяет осуществлять обобщение или распространение получаемых в исследованиях (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исследования.

Метаанализ. Внешняя валидность результатов исследования, существенно усиливается, когда объединяется и обобщается целый ряд исследований одной и той же воздействующей переменной. Такая процедура называется метаанализом. В метаанализе определяются величина эффекта, оказываемого эксперимента, воздействием и основными условиями исследования на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, который позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исследования определяется простым делением разности между средними показателями по критериальной переменной в эксперименты группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исследований, не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.

Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.