Главная » Дизайн гостиной » Оперантное обусловливание в психологии. Научение: классическое vs. оперантное. Определения, значения слова в других словарях

Оперантное обусловливание в психологии. Научение: классическое vs. оперантное. Определения, значения слова в других словарях

Теория-инструментального, или оперантного, обусловливания связана с именами Э. Л. Торндайка (Е. L. Thorn-dike) и Б. Ф. Скиннера (В. Е Skinner). Скиннер и Торн-дайк - виднейшие представители бихевиоризма - показали, что воздействие окружающей среды определяет поведение человека. Они рассматривают в качестве главного фактора формирования человеческого поведения культуру, содержание которой выражается в определенном наборе комплексов подкреплений. С их помощью можно создавать и модифицировать человеческое поведение в нужном направлении. На таком понимании основаны методы модификации поведения, использующиеся не только в психотерапевтической практике, но и, например, при воспитательных воздействиях.

Термины «инструментальное научение» и «оперант-ное обусловливание» означают, что реакция организма, которая формируется по методу проб и ошибок, является инструментом для получения поощрения и предполагает оперирование средой, то есть поведение есть функция его последствий. Согласно принципу оперантного обусловливания, поведение контролируется его результатом и последствиями. Модификация поведения осуществляется за счет влияния на его результаты и последствия. В соответствии со схемой оперантного обусловливания экспериментатор, наблюдая поведение, фиксирует случайные проявления желательной, «правильной», реакции и сразу же подкрепляет ее. Таким образом, стимул следует после поведенческой реакции, используется прямое подкрепление через поощрение и наказание. Результатом подобного научения является оперантное научение, или оперант. В этом случае подкрепляется не стимул, а реакция организма, именно она вызывает подкрепляющий стимул, поэтому такое научение обозначается как научение типа R. Оперантное, или инструментальное, поведение (поведение типа R) - это поведение, вызванное подкреплением, следующим за поведением. Скиннер, подчеркивая различия между респондентным и оперантным поведением, указывает, что респондентное поведение вызвано стимулом, предшествующим поведению, а оперантное поведение - стимулом, следующим за поведением. Иными словами, в классическом обусловливании стимул предшествует поведенческой реакции, а в оперантном - следует за ней.

Необходимо обратить внимание на соотношение таких понятий, как позитивное и негативное подкрепление и наказание, различать наказание и негативное подкрепление. Позитивное или негативное подкрепление усиливает поведение, наказание - ослабляет. Позитивное подкрепление основано на предъявлении стимулов (наград), которые усиливают поведенческую реакцию. Негативное подкрепление заключается в усилении поведения за счет удаления негативных стимулов. То есть всякое подкрепление (и позитивное, и негативное) усиливает частоту реакции и поведение, наказание же, напротив, уменьшает частоту реакции, ослабляет поведение. (Например, позитивное подкрепление: животное находит выход из лабиринта и получает пищу; негативное подкрепление: животное находит выход из лабиринта, где действует электрический ток, и ток выключают; наказание: животное в лабиринте упирается в тупик, и ток включают. Таким образом, первые два вида воздействия экспериментатора усиливают реакцию, поскольку являются подкреплением, а третий - уменьшает, являясь наказанием.)

Для различения стимула классического условного рефлекса и стимула оперантного условного рефлекса Скиннер предложил обозначать первый как Sd (дискри-минантный стимул), а второй - как Sr (респондент-ный стимул). Дискриминантный стимул по времени предшествует определенной поведенческой реакции, респондентами стимул, подкрепляющий определенную поведенческую реакцию, следует за ней.

Итак, сравнительные характеристики классического и оперантного обусловливания:
Классическое обусловливание S-R. Научение типа S. Классическая парадигма Павлова. Реакция возникает только в ответ на воздействие какого-либо стимула. Стимул предшествует реакции. Подкрепление связано со стимулом. Респондентное поведение - поведение, вызванное определенным стимулом, ему предшествующим.

Оперантное обусловливание R-S. Научение типа R. Оперантная парадигма Скиннера. Желательная реакция может появиться спонтанно. Стимул следует за поведенческой реакцией. Подкрепление связано с реакцией. Оперантное поведение - поведение, вызванное подкреплением, за ним следующим.

Теория инструментального или оперантного обусловливания связана с именами Торндайка и Скиннера. Скиннер - один из виднейших представителей бихевиоризма, показал, что воздействие окружающей среды определяет поведение человека, он рассматривает в качестве главного фактора формирования человеческого поведения культуру, содержание которой выражается в определенном наборе комплексов подкреплений. С их помощью можно создавать и модифицировать человеческое поведение в нужном направлении. На таком понимании основаны методы модификации поведения, которые используются не только в психотерапевтической практике, но и в практике, например, воспитательных воздействий.

Термины «инструментальное научение» и «оперантное обусловливание» означают, что реакция организма, которая формируется по принципу проб и ошибок, является инструментом для получения поощрения и предполагает оперирование со средой, то есть поведение есть функция его последствий. При оперантном обусловливании поведение контролируется его результатом и последствиями. Модификация поведения осуществляется за счет влияния на его результаты и последствия. В соответствии со схемой оперантного обусловливания экспериментатор, наблюдая поведение, фиксирует случайные проявления желательной, «правильной» реакции и сразу же подкрепляет ее. Таким образом, стимул следует после поведенческой реакции, прямое подкрепление используется через поощрение и наказание. Результатом научения является оперантное научение, или оперант. В этом случае подкрепляется не стимул, а реакция организма, именно она вызывает подкрепляющий стимул, поэтому такое научение обозначается как научение типа R. Оперантное или инструментальное поведение - поведение типа R - это поведение, вызванное подкреплением, следующим за поведением. Скиннер, подчеркивая различия между респондентным и оперантным поведением, указывает, что респондентное поведение вызвано стимулом, который предшествует поведению, а оперантное поведение - стимулом, следующим за поведением. Иными словами: в классическом обусловливании стимул предшествует поведенческой реакции, а в оперантном - следует за ней.

Следует обратить внимание на соотношение таких понятий, как позитивное и негативное подкрепление и наказание, различать наказание и негативное подкрепление. Позитивное или негативное подкрепление усиливает поведение (поэтому иногда используется просто термин «подкрепление», предполагающий, что целью воздействий является усиление реакции вне зависимости от того каким будет подкрепление - позитивным или негативным), наказание - ослабляет. Позитивное подкрепление основано на предъявлении стимулов (наград), которые усиливают поведенческую реакцию. Негативное подкрепление заключается в усилении поведения за счет удаления негативных стимулов. Наказание также подразделяют на «позитивное» и «негативное»: первое основано на лишении индивида позитивного стимула, второе - на предъявлении негативного (аверсивного) стимула. Таким образом, всякое подкрепление (и позитивное, и негативное) усиливает частоту поведенческой реакции, усиливает поведение, всякое наказание (и «позитивное», и «негативное»), напротив, уменьшает частоту поведенческой реакции, ослабляет поведение.

Позитивное

Негативное

Подкрепление

Воздействие позитивного стимула

Прекращение действия негативного стимула

Наказание

Воздействие негативного стимула

Прекращение действия позитивного стимула

Приведем конкретные примеры. При позитивном подкреплении животное находит выход из лабиринта и получает пищу; родители хвалят ребенка за успехи в школе, создают ему возможности для развлечений. При негативном подкреплении животное находит выход из лабиринта, где действует электрический ток, и ток выключают; родители перестают постоянно контролировать, критиковать и ругать ребенка, если его успеваемость улучшилась. При «позитивном» наказании животное, постоянно получающее пищевое подкрепление в экспериментальной ситуации, перестает его получать при неправильном выполнении действия; родители лишают ребенка развлечений за плохую успеваемость. При «негативном» наказании животное в лабиринте упирается в тупик и ток включают, родители постоянно контролируют, критикуют и ругают ребенка за плохую успеваемость. Таким образом, первые два вида воздействия экспериментатора или родителей усиливают реакцию, так как являются подкреплением, а третье и четвертое - уменьшают, являясь наказанием.

Для различения стимула классического условного рефлекса и стимула оперантного условного рефлекса Скиннер предложил обозначать первый как Sd - дискриминантный стимул, а второй - как Sr - респондентный стимул. Дискриминантный стимул (Sd-стимул) по времени предшествующий определенной поведенческой реакции, респондентный стимул (Sr-стимул), подкрепляющий определенную поведенческую реакцию, следует за ней.

Ниже представлены сравнительные характеристики классического и оперантного обусловливания.

Классическое обусловливание S-R

Оперантное обусловливание R-S

Научение типа S

Научение типа R

Классическая парадигма Павлова

Оперантная парадигма Скиннера

Реакция возникает только в ответ на воздействие какого-либо стимула

Желательная реакция может появиться спонтанно

Стимул предшествует реакции

Стимул следует за поведенческой реакцией

Подкрепление связано со стимулом

Подкрепление связано с реакцией

Респондентное поведение - поведение, вызванное определенным стимулом, предшествующим поведению

Оперантное поведение - поведение, вызванное подкреплением, следующим за поведением

Социальное научение. Этот тип научения основан на представлениях, согласно которым человек обучается новому поведению не только на основании собственного, прямого опыта (как при классическом и оперантном обусловливании), но и на основании опыта других, при наблюдении за другими людьми, за счет процессов моделирования. Поэтому этот тип научения также называют моделированием или научением по моделям. Научение по моделям предполагает научение посредством наблюдения и имитации социальных моделей поведения. Это направление связано, прежде всего, с именем американского психолога Бандуры, представителя медиаторного подхода (Бандура называл свою теорию медиаторно-стимульной ассоциативной теорией). Научение по моделям оказывает следующее действие: а) наблюдатель видит новое поведение, которого ранее не было в его репертуаре; б) поведение модели усиливает или ослабляет соответствующее поведение наблюдателя; в) поведение модели имеет функцию воспроизведения, может быть усвоено наблюдателем. С точки зрения Бандуры, сложное социальное поведение формируется посредством наблюдения и имитации социальных моделей. Наблюдение модели способствует выработке у наблюдателя новых реакций, облегчает реализацию ранее приобретенных реакций, а также модифицирует уже существующее поведение. Бандура выделяет три регуляторные системы функционирования индивида: 1) предшествующие стимулы (в частности, поведение других, которое подкрепляется определенным образом); 2) обратную связь (главным образом, в форме подкреплений последствий поведения); 3) когнитивные процессы, обеспечивающие контроль стимула и подкрепления (человек представляет внешние влияния и ответную реакцию на них символически в виде «внутренней модели внешнего мира»).

Если снова обратиться к основной формуле бихевиоризма S - (r-s) - R, (где r-s или r-s-r-s-...-r-s рассматриваются как промежуточные переменные), то очевидно, что решающая роль в процессе научения принадлежит не подкреплению стимула или реакции организма, а воздействию на промежуточные (медиаторные) переменные. Иными словами, научение в данном случае направлено на изменение более глубоких, закрытых психологических образований. Конкретные воздействия в рамках медиаторного подхода концентрируются на тех или иных психологических феноменах (промежуточных переменных) в зависимости от того, какие психологические процессы рассматриваются в качестве медиаторных (побудительные, когнитивные и пр.).

Когнитивный подход. В настоящее время большую популярность и распространение приобрели когнитивные подходы, где в качестве промежуточных переменных рассматриваются когнитивные процессы; сторонники этих подходов исходят из того, что между ситуацией и эмоцией (стимулом и реакцией) находятся когнитивные процессы (например, мысль). В качестве примера таких подходов можно указать взгляды Бека и Эллиса, которые более подробно будут рассмотрены в связи с концепцией патологии.

Классическое обусловливание - форма научения, исследованная И.П. Павловым - . Характеризуется тем, что вместе со стимулом, закономерно вызывающим определенную реакцию, подается нейтральный стимул. В дальнейшем этот стимул приобретает значение условного раздражителя, автоматически запускающего ту же реакцию. Синоним - Classical conditioning.
Оперантное обусловливание - форма научения - . Характеризуется тем, что подкрепляется то спонтанное поведение, которое признается желательным. Синоним - инструментальное научение, operant conditioning.
Теория инструментального, или О. о. связана с именами Торндайка (Thorndike E. L.) и Скиннера (Skinner В. F.). В отличие от принципа классического обусловливания (S->R), они разработали принцип О. о. (R->S), согласно которому поведение контролируется его результатами и последствиями. Основной путь воздействия на поведение, исходя из этой формулы, - влияние на его результаты.
Для различения стимула классического условного рефлекса и стимула инструментального условного рефлекса Скиннер предложил обозначать первый как Sd (дискриминантный стимул), а второй - Sr (pecпондентный стимул). Sd - стимул, по времени предшествующий определенной поведенческой реакции, Sr - стимул, подкрепляющий определенную поведенческую реакцию и по времени следующий за ней. Хотя в повседневной жизни эти стимулы часто совмещены в одном объекте, они могут быть разделены путем анализа с целью систематизации и определения последовательности мер воздействия на модифицируемое поведение. При использовании оперантных методов управление результатами поведения осуществляется для воздействия на само поведение. Поэтому здесь очень важен этап функционального анализа или поведенческой диагностики. Задача этого этапа состоит в определении подкрепляющей значимости окружающих пациента объектов, установлении иерархии их подкрепляющей силы. Это делается путем прямого наблюдения за поведением человека и установления связи между частотой и интенсивностью проявляемого поведения (зависимая переменная) и имеющимися в это время объектами и событиями, происходящими в окружении (независимая переменная).
Оперантные методы могут быть использованы для решения ряда задач.
1. Формирование нового стереотипа поведения, которого до этого не было в репертуаре поведенческих реакций человека (например, кооперативное поведение ребенка, поведение самоутверждающего типа у пассивного ребенка и т. д.). Для решения этой задачи может быть использовано несколько стратегий выработки нового поведения.
Под шейпингом понимается поэтапное моделирование сложного поведения, которое не было свойственно ранее индивиду. В цепи последовательных воздействий важным является первый элемент, который, хотя и отдаленно, связан с конечной целью шейпинга, однако с большой степенью вероятности направляет поведение в нужное русло. Этот первый элемент должен быть точно дифференцирован, а критерии оценки его достижения четко определены. Для облегчения проявления первого элемента желательного стереотипа должно быть выбрано условие, которое может быть достигнуто быстрее и легче всего. Для этого используется разнообразное варьирующее подкрепление, от материальных предметов до социального подкрепления (одобрение, похвала и др.). Например, при обучении ребенка навыкам самостоятельного одевания первым элементом может быть привлечение его внимания к одежде.
В случае «сцепления» используется представление о поведенческом стереотипе как о цепи отдельных поведенческих актов, при этом конечный результат каждого акта является дискриминантным стимулом, запускающим новый поведенческий акт. При реализации стратегии сцепления следует начинать с формирования и закрепления последнего поведенческого акта, находящегося ближе всего к самому концу цепи, к цели. Рассмотрение сложного поведения как цепи последовательных поведенческих актов позволяет понять, какая часть цепи хорошо сформирована, а какая должна быть создана с помощью шейпинга. Тренинг должен продолжаться до того момента, пока желательное поведение всей цепи не осуществляется с помощью обычных подкрепляющих стимулов.
Фейдинг - это постепенное уменьшение величины подкрепляющих стимулов. При достаточно прочно сформированном стереотипе пациент должен реагировать на минимальное подкрепление прежним образом. Фейдинг играет важную роль при переходе от тренировок с психотерапевтом к тренировкам в повседневном окружении, когда подкрепляющие стимулы исходят от других людей, замещающих психотерапевта.
Побуждение является вариантом вербального или невербального подкрепления, который повышает у обучающегося уровень внимания и фокусировки на желательном стереотипе поведения. Подкрепление может выражаться в демонстрации этого поведения, прямых инструкциях, центрированных или на нужных действиях, или на объекте действия и т. д.
2. Закрепление уже имеющегося в репертуаре индивида желательного стереотипа поведения. Для решения этой задачи может использоваться положительное подкрепление, отрицательное подкрепление, контроль стимула.
3. Уменьшение или угашение нежелательного стереотипа поведения. Достигается с помощью методик наказания, угашения, насыщения.
4. Лишение всех положительных подкреплений.
5. Оценка ответа.

В классическом обусловливании условная реакция часто напоминает обычную реакцию на безусловный стимул. Слюноотделение, например, - нормальная реакция собаки на пищу. Но если вы хотите научить организм чему-то новому, например научить собаку новому трюку, классическое обусловливание вам не поможет. Какой безусловный стимул заставит собаку сидеть или перекатываться? Чтобы обучить собаку, вам придется сначала убедить ее проделать нужный трюк, а потом вознаградить ее похвалой или пищей. Если продолжать так делать, собака со временем научится этому трюку.

Многое из поведения в реальной жизни похоже на это: реакциям научаются потому, что они действуют, или воздействуют на окружение. Такой тип научения, называемый оперантным обусловливанием, свойствен и человеку, и животным. Оставленный один в кроватке, ребенок может спонтанно брыкаться, вертеться или лопотать. Собака, оставшись одна в комнате, может метаться взад-вперед, что-то вынюхивать, может подобрать мячик, уронить его или поиграть с ним. Ни один организм не реагирует на появление или исчезновение конкретного внешнего стимула. Все они воздействуют на свое окружение. Но если организм уже осуществляет определенное поведение, вероятность того, что он повторит это действие, зависит от того, что следует за последним. Ребенок будет чаще лопотать, если за каждым таким действием следует родительское внимание, и собака будет чаще поднимать мячик, если за этим следует ласка или вознаграждение пищей. Если считать, что у ребенка есть цель вызвать родительское внимание, а у собаки цель - пища, то оперантное обусловливание сводится к научению тому, что определенное поведение ведет к достижению определенной цели (Rescorla, 1987).

Закон эффекта

Изучение оперантного обусловливания началось на рубеже нашего века с ряда экспериментов Торндайка (Е. L. Thorndike, 1898). Торндайк, на которого сильно повлияла дарвиновская теория эволюции, стремился показать, что научение у животных неотрывно от научения у человека. Типичный эксперимент проходил так. Голодного кота сажали в клетку, дверца которой была закрыта на простую задвижку, а совсем рядом с клеткой клали кусочек рыбы. Поначалу кот пытался добраться до рыбы, протягивая лапы между прутьев. Когда это не получалось, кот перемещался по клетке, предпринимая самые разные действия. В какой-то момент он случайно задевал задвижку, выходил на свободу и съедал рыбу. Затем кота сажали обратно в клетку и бросали снаружи новый кусочек рыбы. Кот совершал примерно ту же последовательность действий, пока ему опять не удавалось открыть задвижку. Эта процедура повторялась снова и снова. Продолжая пробы, кот отбрасывал многие бесполезные действия, постепенно достигая удачного открывания задвижки и выхода на свободу, как только его помещали в клетку. Этот кот научился открывать задвижку, чтобы получить пищу.

Все это выглядит так, как будто кот действует разумно, но Торндайк утверждал, что здесь присутствует мало «интеллекта». За все время не было такого момента, чтобы у кота появилась догадка о решении этой задачи. Вместо этого достижения кота постепенно улучшались с продолжением проб. Кот не догадывается, а просто ведет себя по типу проб и ошибок, и когда после совершения какого-то действия немедленно следует вознаграждение, научение этому действию закрепляется. Это закрепление Торндайк называл законом эффекта. Он утверждал, что при оперантном научении в силу закона эффекта из набора случайных реакций выбирается та, за которой идут положительные последствия. Этот процесс сходен с эволюцией, в которой закон выживания самого приспособленного выбирает из набора случайных вариаций вида именно те изменения, которые способствуют выживанию этого вида. Закон эффекта, таким образом, провозглашает выживание самых приспособленных реакций (Schwartz, 1989).

Эксперименты Скиннера

Б. Ф. Скиннер - виновник целого ряда изменений в представлениях о том, что такое оперантное обусловливание и как его изучать. Его метод исследования оперантного обусловливания был проще, чем у Торндайка (например, использовалась только одна реакция), и стал широко принятым.

< Рис. Б. Ф. Скиннер явился основоположником изучения оперантного обуславливания.>

Вариации эксперимента. В эксперименте Скиннера голодное животное (обычно крысу или голубя) помещают в ящик, подобный изображенному на рис. 7.6, с популярным названием «ящик Скиннера».

Рис. 7.6. Устройство для оперантного обусловливания. На фото показан ящик Скиннера с кассетой для подачи пищевых шариков. Компьютер используется для управления экспериментом и регистрации реакций крысы.

Ящик внутри пуст, если не считать выступающего рычага, под которым стоит тарелка для еды. Небольшая лампочка над рычагом может включаться по усмотрению экспериментатора. Оставленная одна в ящике, крыса передвигается и исследует его. Случайно она обнаруживает рычаг и нажимает на него. Частота, с которой крыса вначале нажимает на рычаг, - фоновый уровень. После установления фонового уровня экспериментатор запускает в действие кассету с пищей, расположенную снаружи ящика. Теперь каждый раз, когда крыса нажимает на рычаг, небольшой шарик пищи выпадает в тарелку. Крыса съедает его и вскоре снова нажимает на рычаг; пища подкрепляет нажатие на рычаг, и частота нажатий стремительно растет. Если кассету с пищей отсоединить, так что при нажатии на рычаг пища больше не подается, частота нажатий будет уменьшаться. Следовательно, оперантно обусловленная реакция (или просто операнта) при неподкреплении угасает точно так же, как и классически обусловленная реакция. Экспериментатор может установить критерий дифференцировки, подавая пищу только тогда, когда крыса нажимает на рычаг при горящей лампочке, и тем самым вырабатывая условную реакцию у крысы путем избирательного подкрепления. В этом примере свет служит дифференцировочным стимулом, который контролирует реакцию.

Итак, оперантное обусловливание повышает вероятность некоторой реакции, когда определенное поведение сопровождается подкреплением (обычно в виде пищи или воды). Поскольку в ящике Скиннера рычаг присутствует всегда, крыса может нажимать на него так часто или не часто, как сама выберет. Таким образом, частота реакции служит удобной мерой силы операнты: чем чаще совершается реакция за данный временной интервал, тем больше ее сила.

Следует указать на отношение между терминами «вознаграждение» и «наказание», с одной стороны, и «положительное» и «отрицательное подкрепление», с другой. Термин «вознаграждение» может использоваться синонимично с термином «положительный подкрепляющий фактор» - событие, которое увеличивает вероятность той или иной формы поведения, если оно следует за данной формой поведения. Однако наказание - это не то же самое, что отрицательный подкрепляющий фактор. Термин «отрицательное подкрепление» означает прекращение наступления нежелательных событий, следующих за той или иной формой поведения; как и положительное подкрепление, оно увеличивает вероятность соответствующей формы поведения. Наказание же имеет противоположный эффект: оно уменьшает вероятность наказуемого поведения. Наказание также может быть как положительным (воздействие неприятного стимула), так и отрицательным (лишение положительного стимула) (см. табл. 7.3).

Таблица 7.3. Типы подкрепления и наказания

Тип	Определение	Эффект	Пример
Положительное подкрепление	Приятный стимул, следующий за желательной формой поведения		Высокая оценка на экзамене
Отрицательное подкрепление	Прекращение воздействия неприятного стимула вслед за желательной формой поведения	Увеличивает вероятность желательной формы поведения	Разрешение ребенку пойти погулять после того, как он прекратил истерику
Положительное наказание	Воздействие неприятного стимула вслед за нежелательной формой поведения		Низкая оценка на экзамене
Отрицательное наказание	Прекращение воздействия приятного стимула вслед за нежелательной формой поведения	Уменьшает вероятность нежелательной формы поведения	Запрещение смотреть телевизор ребенку, который плохо себя ведет

Применение к воспитанию детей. Хотя в оперантном обусловливании любимыми экспериментальными животными были крысы и голуби, оно применимо ко многим биологическим видам, включая нас самих. Действительно, оно может многое сказать нам о воспитании детей. Особенно ярким примером этому служит такой случай. У маленького мальчика были вспышки гневного раздражения, если он не получал достаточно внимания от родителей, особенно перед сном. Поскольку родители рано или поздно откликались, проявляемое ими внимание подкрепляло гнев ребенка. Чтобы снять эту гневную раздражительность, родителям посоветовали выполнять обычный ритуал укладывания спать, а затем игнорировать протесты ребенка, хотя это и может быть болезненно. При воздержании от подкрепления (уделения внимания) вспышки гнева должны угасать; именно это и произошло. Всего за 7 дней время, в течение которого этот ребенок плакал в постели, сократилось с 45 минут до нуля (Williams, 1959).

< Рис. Склонность детей к истерикам можно ослабить, если их поведение не подкреплять родительским вниманием.>

Еще одно применение оперантного обусловливания к воспитанию детей касается временного соотношения между реакцией и ее подкреплением. Лабораторные эксперименты показали, что немедленное подкрепление более эффективно, чем задержанное; чем больше времени проходит между оперантной реакцией и подкреплением, тем меньше сила реакции. Многие специалисты по психологии развития отмечали, что задержка подкрепления - важный фактор ухода за маленькими детьми. Если ребенок по-доброму относится к домашнему животному, его действия лучше всего можно закрепить вознаграждением (похвалой, например) немедленно, не откладывая это на потом. Сходным образом, если ребенок бьет кого-либо без провокации в свой адрес, то такое агрессивное поведение будет исключено с большей вероятностью, если его наказать немедленно, не откладывая на потом.

Формирование. Предположим, вы хотите использовать оперантное обусловливание, чтобы научить вашу собаку трюку - например, нажимать носом на звонок. Вы не можете ждать, пока собака сделает это сама собой (и тогда подкрепить это), поскольку ждать можно вечно. Если требуемое поведение действительно новое, вы должны обусловить его, используя преимущество естественных вариации в действиях животного. Чтобы научить собаку нажимать звонок носом, можно давать ей пищевое подкрепление каждый раз, когда она приближается к зоне звонка, заставляя ее с каждым подкреплением подходить ближе и ближе к нужному месту, пока наконец нос собаки не коснется звонка. Такая техника, когда подкрепляются только те отклонения в реакциях, которые нужны экспериментатору, называется формированием поведения животного.

Применяя метод формирования, животных можно научить отрабатывать трюки и последовательности действий. Два психолога с сотрудниками подготовили тысячи животных многих видов для телевизионных шоу, рекламы и окружных ярмарок (Breland & Breland, 1966). В одном популярном шоу участвовала «Присцилла, привередливая свинка». Присцилла включала телевизор, ела завтрак за столом, подбирала грязную одежду и клала ее в. корзину, пылесосила пол, выбирала свою любимую еду (среди продуктов, конкурирующих с продукцией ее спонсора!) и принимала участие в викторине, отвечая на вопросы аудитории нажатием на выключатели лампочек, показывавших «да» или «нет». Она не была особо одаренной свиньей: на самом деле, поскольку свиньи растут очень быстро, новую «Присциллу» готовили каждые 3-5 месяцев. Подлинной изобретательностью отличались все же не свиньи, а экспериментаторы, которые использовали оперантное обусловливание и формировали поведение, чтобы добиться желаемого результата. Путем формирования оперантных реакций голубей тренировали находить людей, потерявшихся в море (рис. 7.7), а морских свинок тренировали находить подводное оборудование.

< Рис. Оперантное обусловливание и формирование поведения используются в дрессировке животных для обучения их выполнению различного рода трюков.>

Рис. 7.7 Поиск и спасение с помощью голубей. Береговая охрана использовала голубей для поиска людей, потерявшихся в море. Применяя методы формирования, голубей тренировали распознавать оранжевый цвет - международный цвет спасательных жакетов. Три голубя пристегнуты в ящике из оргстекла, прикрепленном к днищу вертолета. Ящик поделен на секции, так что каждая птица смотрит в своем направлении. Когда голубь обнаруживает оранжевый объект или любой другой объект, он клюет ключ, и у пилота звенит звонок. Тогда пилот разворачивается в направлении, указанном среагировавшей птицей. Для обнаружения удаленных объектов в море голуби подходят больше, чем люди. Они могут смотреть на воду в течение долгого времени, не страдая от усталости глаз: у них превосходное цветовое зрение, а зона фокусировки у них 60-80 градусов, тогда как у человека - 2-3 градуса (по: Simmons, 1981).

Феномены и их применение

Существует ряд явлений, значительно расширяющих сферу действия оперантного обусловливания и указывающих на возможное его применение к поведению человека.

Условное подкрепление. Большинство из рассмотренных нами подкреплений называются первичными, поскольку, как и пища, они удовлетворяют основные потребности. Если бы оперантное обусловливание происходило только с первичными подкреплениями, оно не было бы таким распространенным в нашей жизни, поскольку первичные подкрепления не столь часты. Однако практически любой стимул может стать вторичным, или условным, подкреплением, если его последовательно сочетать с первичным подкреплением; условные подкрепления значительно расширяют диапазон оперантного обусловливания (так же как обусловливание второго порядка значительно расширяет диапазон классического обусловливания).

Небольшая вариация типичного эксперимента по оперантному обусловливанию иллюстрирует работу условного подкрепления. Когда крыса в ящике Скиннера нажимает на рычаг, моментально звучит тон, за которым вскоре дается пища (пища - первичное подкрепление; звук станет условным подкреплением). После того как у животного выработалась условная реакция, экспериментатор переходит к ее угашению, так что когда крыса нажимает на рычаг, не появляется ни пищи, ни звука. Через какое-то время крыса перестает нажимать на рычаг. Затем возобновляется звук, но не пища. Когда животное обнаруживает, что при нажатии рычага включается звук, частота нажатий заметно возрастает, преодолевая угасание, хотя никакой еды за этим не следует. Звук приобрел качество подкрепления сам по себе путем классического обусловливания; устойчиво сочетаясь с пищей, он сам стал сигналом пищи.

Наша жизнь изобилует условными подкреплениями. Доминируют из них два: деньги и похвала. Предположительно, деньги являются сильным подкреплением потому, что они часто сочетаются с первичными подкреплениями: можно купить пищу, выпивку, удобства - это только несколько очевидных примеров. И похвала - даже без обещания первичного подкрепления - может во многом поддерживать деятельность.

< Рис. Похвала является эффективным подкрепляющим фактором для многих людей.>

Генерализация и дифференцировка. То, что было верно для классического обусловливания, верно и для оперантного: организмы генерализуют то, что они выучили, и генерализацию можно ограничить тренировкой на дифференцировку. Если родители подкрепляют маленького ребенка за ласкание домашней собачки, он вскоре генерализует эту реакцию ласки на других собак. Поскольку это может быть опасно (соседская собачка может оказаться свирепым сторожевым псом), родители ребенка могут провести некоторую дифференцировочную тренировку, так чтобы он ласкал свою собаку, но не соседскую.

Дифференцировочная тренировка будет эффективна в той степени, в какой присутствует дифференцируемый стимул (или набор стимулов), позволяющий четко отличать случаи, где реакция должна иметь место, от случаев, где ее нужно подавить. Вышеупомянутому маленькому ребенку будет легче научиться, какую собаку ласкать, если его родители смогут указать на признак собаки, сигнализирующий о ее дружественности (виляние хвостом, например). Вообще, дифференцировочный стимул будет полезен в той степени, в какой его присутствие предсказывает, что за реакцией последует подкрепление, а его отсутствие предсказывает, что за реакцией подкрепления не последует (или наоборот). Так же, как и в классическом обусловливании, предсказательная сила стимула имеет решающее значение для обусловливания.

Режимы подкрепления. В реальной жизни отдельные эпизоды поведения подкрепляются редко; иногда за усердную работу хвалят, но часто она остается непризнанной. Если бы оперантное обусловливание происходило только при постоянном подкреплении, его роль в нашей жизни была бы ограниченной. Оказывается, однако, что после того как поведение возникло, оно может поддерживаться, если его подкреплять только часть всего времени. Это явление известно как частичное подкрепление, и его можно проиллюстрировать в лаборатории на примере голубя, который научается клевать ключ, чтобы получать пищу. После того как эта операнта сформировалась, голубь продолжает клевать ключ с высокой частотой, даже если он получает подкрепление только от случая к случаю. Иногда голуби, вознаграждавшиеся пищей в среднем один раз за 5 минут (12 раз в час), клевали ключ 6000 раз в час! Кроме того, угасание, следующее за поддержанием реакции на частичное подкрепление пищей, идет гораздо медленнее, чем угасание, следующее за поддержанием реакции на непрерывное подкрепление. Это явление известно как эффект частичного подкрепления. Данный эффект понятен на чисто интуитивном уровне, поскольку если подкрепление для поддержания реакции является лишь частичным, случаи угасания и поддержания реакции труднее отличить друг от друга.

Когда подкрепление осуществляется только часть всего времени, нам нужно знать, каков в точности его распорядок: после каждой третьей реакции? или каждые пять секунд? Оказывается, что режим подкрепления определяет схему реагирования. Некоторые расписания подкрепления называют пропорциональным режимом, потому что при этом подкрепление зависит от числа совершенных реакций. Это как на заводе, когда рабочему платят за определенный объем работы. Коэффициент пропорциональности может быть фиксированным или переменным. При режиме с фиксированной пропорцией (его называют режимом ФП) число реакций, которые должны совершиться, равно определенной величине. Если это число составляет 5 (ФП 5), то это значит, что подкрепление последует по совершении 5 реакций, если оно равно 50 (ФП 50), потребуется совершить 50 реакций, и т. д. Вообще, чем выше пропорция, тем с большей частотой организм реагирует, особенно если его первоначально тренировали при относительно низком коэффициенте (скажем, ФП 5), а затем непрерывно увеличивали коэффициент до величины, скажем, ФП 100. Это как если бы на заводе рабочему сначала платили по 5 долларов за каждые 5 зашитых швов, но потом настали тяжелые времена, и ему пришлось за те же 5 долларов делать 100 швов. Но, пожалуй, самая примечательная особенность поведения при режиме с ФП состоит в том, что сразу после очередного подкрепления в росте реакций наступает пауза (см. левую часть рис. 7.8). Заводскому рабочему трудно начать новую серию швов сразу после того, как он сделал их достаточно, чтобы получить вознаграждение.

Рис. 7.8. Типичные схемы реакций на четыре основные режима подкрепления. Каждая кривая отображает совокупное число реакций животного в зависимости от времени; наклон кривой отражает частоту его реакций. Кривые слева относятся к пропорциональному режиму. Обратите внимание на горизонтальные участки кривой для режима с ФП: они соответствуют паузам (нет роста совокупного числа реакций). Кривые справа отображают условия интервального режима. Кривая для режима с фиксированным интервалом (ФИ) опять содержит горизонтальные участки, соответствующие паузам (по: Schwartz, 1989). ФП - фиксированная пропорция; ПП - переменная пропорция, ФИ - фиксированный интервал; ПИ - переменный интервал.

При режиме с переменной пропорцией (ПП) подкрепление также дается после совершения определенного количества реакций, но их число варьируется непредсказуемо. Так, при режиме ПП 5 количество реакций, требуемых для подкрепления, иногда составляет 1, иногда 10, а в среднем 5. В отличие от поведения при режиме с ФП, при режиме с ПП не наблюдается пауз в росте реакций (см. левую часть рис. 7.8), предположительно потому, что у организма нет возможности определить, что подкрепление появится нескоро. Хороший пример режима с ПП в повседневной жизни - работа игрового автомата. Количество реакций (игр), необходимое для выдачи подкрепления (выигрыша), все время меняется, и у игрока нет способа предсказать, когда последует подкрепление. Режим ПП может порождать очень высокую частоту реакций (как, видимо, и рассчитали владельцы казино).

Помимо пропорциональных существуют интервальные режимы, в которых подкрепление выдается только по прошествии определенного времени. Такие режимы тоже бывают фиксированными и переменными. При фиксированном интервале (ФИ) организм получает подкрепление за первую реакцию по прошествии определенного времени с момента ее последнего подкрепления. Например, при режиме ФИ 2 (2 минуты) подкрепление дается только по истечении 2 минут после последней подкрепленной реакции; реакции в течение этого двухминутного интервала проходят без последствий. Особенность реагирования при режиме ФИ - пауза, возникающая сразу после подкрепления (она может быть даже длиннее, чем пауза при режиме ФП). Еще одна особенность реагирования при режиме ФИ - это возрастание частоты реакций по мере приближения окончания периода (см. правую часть рис. 7.8). Хороший пример режима ФИ в повседневной жизни - доставка почты, которая приходит только раз в день (ФИ 24 часа) или, в некоторых местах, дважды в день (ФИ 12 часов). Так, сразу после доставки почты вы не будете ее проверять снова (у вас пауза), но по мере приближения окончания интервала доставки почты вы снова начинаете ее проверять.

При режиме с переменным интервалом (ПИ) вознаграждение все еще зависит от прошествия определенного интервала, но его длительность колеблется непредсказуемо. При расписании ПИ 10 (10 минут), например, критический интервал иногда может быть 2 минуты, иногда 20 и т. д. при средней величине 10 минут. Если при режиме ФИ частота реакций меняется, то при режиме ПИ 1 организмы реагируют с одинаково высокой частотой (см. правую часть рис. 7.8). В качестве примера режима ПИ в повседневной жизни можно привести дозванивание по занятому номеру. Чтобы получить подкрепление (дозвониться), надо подождать какое-то время после последней реакции (набора номера); сколько придется ждать в целом - непредсказуемо (см. табл. 7.4).

Таблица 7.4. Режимы подкрепления

Пропорциональные режимы
Режим с фиксированной пропорцией	Подкрепление дается после определенного количества реакций
Режим с переменной пропорцией	Подкрепление дается после определенного количества реакций, количество которых непредсказуемо варьируется
Интервальные режимы
Режим с фиксированным интервалом	Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления
Режим с переменным интервалом	Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления, при этом продолжительность интервалов непредсказуемо варьируется

Обусловливание неприятными стимулами

Мы говорили о подкреплении так, будто оно всегда положительное (пища, например). Но отрицательные или неприятные события, например удар током или невыносимый шум, тоже часто используются для обусловливания. Существуют различные виды обусловливания неприятными стимулами, в зависимости от того, применяются ли они для ослабления имеющейся реакции или для заучивания новой. [ Стоит обратить внимание на соотношение терминов вознаграждение и наказание, с одной стороны, и положительное и отрицательное подкрепление, с другой. Вознаграждение может использоваться как синоним положительного подкрепления - события, появление которого вслед за реакцией повышает вероятность этой реакции. Но наказание - это не то же самое, что отрицательное подкрепление. Последнее означает прекращение неприятного события вслед за реакцией. Наказание имеет противоположный эффект: оно уменьшает вероятность реакции. - Прим. автора.]

Наказание. При тренировках с наказанием за реакцией следует неприятный стимул или событие, что ведет к ослаблению реакции или подавлению последующих ее проявлений. Предположим, маленький ребенок, который учится пользоваться цветными карандашами, начинает рисовать на стене (это нежелательная реакция); если его шлепают по руке, когда он это делает (наказание), он научается так не делать. Сходным образом, если крыса, которая учится проходить лабиринт, получает удар током каждый раз, когда она идет не туда, она скоро научится избегать прошлых ошибок. В обоих случаях наказание используется для снижения вероятности нежелательного поведения. [ Другими словами, происходит угасание ориентировочной реакции на безусловный стимул. - Прим. ред.]

Наказание может подавить нежелательную реакцию, но у него есть несколько недостатков. Во-первых, его эффект не столь предсказуем, как эффект вознаграждения. Вознаграждение, по сути, говорит: «Повтори то, что ты уже сделал»; наказание говорит «Перестань!» и не может предложить альтернативу. В результате организм может заменить наказываемую реакцию еще менее желательной. Во-вторых, побочные результаты наказания могут оказаться вредными. Наказание часто ведет к антипатии или страху перед наказывающим человеком (родителем, учителем или нанимателем) и перед самой ситуацией (домом, школой или офисом), где происходило наказание. Наконец, крайне суровое или болезненное наказание может вызвать агрессивное поведение, более серьезное, чем первоначальное нежелательное.

Эти предостережения не означают, что наказание никогда не должно применяться. Оно может эффективно снимать нежелательную реакцию, если другая реакция вознаграждается. Крысы, которые научились находить более короткий из двух путей в лабиринте, чтобы добраться до пищи, быстро переключаются на более длинный, если в коротком пути их бьет током. Временное подавление, вызываемое наказанием, дает крысе возможность научиться идти длинным путем. В этом случае наказание служит эффективным средством переориентировать поведение, поскольку оно информативно, а это и есть ключ к гуманному и эффективному применению наказания. Ребенок, который получил удар током от электроприбора, может научиться тому, какие соединения безопасны, а какие - нет.

< Рис. Угроза наказания - эффективное средство мотивации. Надпись на дорожном знаке: НЕ СИГНАЛИТЬ. Штраф 50$.>

Избегание и предотвращение. Неприятные события могут также использоваться при научении новым реакциям. Организм может научиться реагировать так, чтобы прекратить неприятное событие, например, когда ребенок научается закрывать кран, чтобы горячая вода не лилась в его ванну. Это называется научением избеганию событий. Организм может реагировать и так, чтобы предотвратить неприятное событие до его начала, например, когда мы научаемся останавливаться на красный свет, чтобы предотвратить несчастные случаи (и получение штрафных квитанций). Это называется научением предотвращению событий.

Научение избеганию часто предшествует научению предотвращать события. Это иллюстрирует следующий эксперимент. Крысу помещают в ящик, состоящий из двух отделений, разделенных барьером. В каждой пробе животное помещают в одно из отделений. В некоторый момент звучит предупреждающий звук, а пять секунд спустя к полу этого отделения подается ток; чтобы уйти от удара током, животное должно перепрыгнуть через барьер в другое отделение. Первоначально животное делает это, когда ток уже включен, - здесь имеет место научение избеганию. Но по мере тренировки животное научается прыгать, услышав предупредительный звук, и тем самым целиком избегает удара током - это научение предотвращению.

Научение предотвращению вызвало широкий интерес, отчасти потому, что в нем есть что-то весьма загадочное. Что представляет собой подкрепление реакции предотвращения? В вышеизложенном исследовании - что подкрепляет прыжок крысы через барьер? Интуитивно кажется, это - отсутствие раздражения током, но отсутствие чего-то можно рассматривать как несобытие. Как может несобытие служить подкреплением? В одном из решений этой загадки предполагается, что в таком научении есть две стадии. На первой стадии происходит классическое обусловливание: при неоднократном сочетании предупреждения (УС) и наказующего события, то есть удара током (БУС), животное заучивает реакцию страха на предупреждение. На второй стадии происходит оперантное обусловливание: животное научается, что определенная реакция (перепрыгивание барьера) устраняет неприятное событие, то есть страх. Короче, то, что поначалу кажется несобытием, на самом деле - страх, и предотвращение можно представлять как прекращение страха (Rescorla & Solomon, 1967; Mowrer, 1947).

Контроль и когнитивные факторы

В нашем анализе оперантного обусловливания подчеркивалась роль факторов окружения: за реакцией неизменно следовало подкрепляющее событие, и организм научался ассоциировать данную реакцию с данным подкреплением. Но в когнитивной теории предотвращения, о которой мы говорили, предполагается, что в оперантном обусловливании, так же как и в классическом, важную роль играют когнитивные факторы. Как мы увидим, иногда полезно рассмотреть ситуацию оперантного обусловливания организма как приобретение им нового знания о взаимосвязи между реакцией и подкреплением.

Одновременность или контроль? Как и в случае классического обусловливания, мы хотим знать, какой фактор является решающим, чтобы произошло оперантное обусловливание. Опять-таки один из вариантов - совпадение по времени: операнта становится условной, когда подкрепление немедленно следует за поведением (Skinner, 1948). Более когнитивный вариант ответа, близко связанный с предсказуемостью, - это фактор контроля: операнта становится условной, только когда организм интерпретирует подкрепление как событие, контролируемое его реакцией. Некоторые важные эксперименты (Maier & Seligman, 1976) больше говорят в пользу фактора контроля, чем в пользу фактора совпадения по времени (см. также обсуждение контроля и стресса в гл. 15).

Основной эксперимент состоит из двух стадий. На первой стадии некоторые собаки узнают, что раздражение током или его отсутствие зависит от их поведения (или контролируется им), а другие собаки научаются тому, что у них нет контроля над раздражением током. Собак испытывают парами. Оба члена пары находятся в упряжи, ограничивающей их движения, и неожиданно они получают удар током. Один член пары - «ведущая» собака - может выключить электричество, нажав носом на рядом расположенный выключатель; другой член пары - «ведомая» собака - никак не может контролировать удар током. Каждый раз, когда ведущая собака получает удар, то же достается и ведомой собаке; и каждый раз, когда ведущая собака выключает ток, у ведомой собаки он тоже прекращается. Таким образом, и ведущая и ведомая собаки получают одинаковое количество ударов током.

Чтобы узнать, что выучили собаки на первой стадии, нужна вторая стадия, на которой экспериментатор помещает обеих собак в новое устройство - ящик, разделенный барьером на две половины. Это такое же устройство для теста на предотвращение события, какое мы рассматривали немного выше. Как и ранее, в каждой пробе сначала звучит тон, указывающий, что отделение, занимаемое сейчас животным, вот-вот подвергнется воздействию электричества; чтобы избежать раздражения, животное должно научиться при предупреждающем звуке прыгать через барьер в другое отделение. Ведущие собаки быстро научаются этой реакции. Но с ведомыми собаками происходит совсем иное. Они с самого начала не делают движения через барьер, и по мере продолжения проб их поведение становится все более пассивным, пока собака под конец не впадает в полную беспомощность. Почему? Потому что на первой стадии ведомые собаки узнали, что удары током - вне их контроля, и это убеждение в бесконтрольности сделало обусловливание на второй стадии невозможным. Если убеждение в бесконтрольности делает невозможным оперантное обусловливание, то, может быть, именно убежденность в контроле делает его возможным. Многие другие эксперименты свидетельствуют в пользу того, что оперантное обусловливание происходит, только когда организм воспринимает подкрепление как нечто, что он может контролировать (Seligman, 1975). Подробнее о приобретенной беспомощности будет сказано в гл. 15.

Научение зависимости. О приведенных результатах молено говорить и в терминах зависимостей. Можно сказать, что оперантное обусловливание происходит только тогда, когда организм воспринимает зависимость между своими реакциями и подкреплением. На первой стадии упомянутого выше исследования соответствующая зависимость имела место между нажатием выключателя и окончанием раздражения током; восприятие этой зависимости равнозначно выяснению того, что, когда выключатель нажат, вероятность окончания раздражения больше, чем когда он не нажат. Собаки, которые не воспринимают этой зависимости на первой стадии эксперимента, не ищут никаких зависимостей и на второй стадии. В свете фактора зависимости ясно, что эти результаты изучения оперантного обусловливания сходятся с данными о роли предсказуемости в классическом обусловливании: знание, что УС предсказывает БУС, можно интерпретировать как выражение того, что организм обнаружил зависимость между этими двумя стимулами. Таким образом, и в классическом, и в оперантном обусловливании организм усваивает именно зависимость между двумя событиями. В классическом обусловливании поведение определяется конкретными стимулами; в оперантном обусловливании поведение определяется конкретными ожидаемыми реакциями.

Наша способность узнавать зависимости развивается очень рано, как показывает следующее исследование 3-месячных младенцев. Все младенцы в эксперименте лежали в своих кроватках, головы на подушках. Под каждой подушкой был выключатель, который замыкался каждый раз, когда младенец поворачивал голову. Для испытуемых контрольной группы каждый раз, когда они поворачивали голову и замыкали выключатель, на противоположной стороне кроватки включалась движущаяся игрушка. Для этих младенцев имела место зависимость между поворотом головы и движением игрушки: с поворотом головы движение игрушки было более вероятным, чем без него. Эти младенцы быстро научились поворачивать голову и реагировали на движение игрушки знаками радости (они улыбались и лопотали). Совсем другая картина была у испытуемых экспериментальной группы. Для этих младенцев игрушка приводилась в движение примерно так же часто, как и у контрольных испытуемых, но двигалась она или нет - было вне их контроля: здесь отсутствовала зависимость между поворотами головы и движением игрушки. Эти младенцы не научились двигать головой более часто. Кроме того, через какое-то время они уже не демонстрировали признаков удовольствия от движения игрушки. При отсутствии контроля над ней игрушка, видимо, потеряла часть своей подкрепляющей функции.

Биологические ограничения

Как и в случае классического обусловливания, биология накладывает ограничения на то, что можно выучить путем оперантного обусловливания. Эти ограничения касаются соотношений между реакцией и подкреплением. Для иллюстрации рассмотрим голубей в двух экспериментальных ситуациях: научение с вознаграждением, когда животное приобретает реакцию, подкрепляемую пищей, и научение с прекращением, когда животное приобретает реакцию, подкрепляемую прекращением ударов током. В случае с вознаграждением голуби учатся гораздо быстрее, если в качестве реакции нужно клюнуть ключ, а не хлопать крыльями. В случае с прекращением раздражения током происходит наоборот: голуби учатся быстрее, если условная реакция - это хлопанье крыльями, а не клевание (Bolles, 1970).

Как и в случае классического обусловливания, приведенные результаты расходятся с предположением, что во всех ситуациях работают одни и те же законы научения, и этологически это вполне понятно. Случай с вознаграждением, когда пища сочетается с клеванием (но не хлопанием крыльев), является частью естественной активности птиц, связанной с едой. Значит, разумно предположить, что существует генетически заданная связь между клеванием и едой. Сходным образом, в варианте с прекращением раздражения током имеется опасная ситуация, а естественной реакцией голубя на опасность является хлопанье крыльями (но не клевание). Как известно, у птиц небольшой репертуар оборонительных реакций, и они быстро учатся прекращению только в том случае, если соответствующая реакция принадлежит к естественным оборонительным.

Описанные выше этологические исследования демонстрируют нам новый возможный способ взаимодействия биологического и психологического подходов. Этологические концепции помогают нам придать смысл полученным ранее результатам психологических исследований. Например, они объясняют нам, почему голуби обучаются быстрее в ситуации, включающей вознаграждение, если реакцией является клевание, однако в ситуации, включающей избегание, они обучаются быстрее, если реакцией является хлопание крыльями.

Основывается на сформулированном в начале XX века американским исследователем процессов научения Э. Торндайком (1998) «законе эффекта».

Реактивные формы поведения возникают в результате таких событий, при которых организм в основном пассивно испытывает внешние воздействия на соответствующие врожденные структуры, отвечающие за соматовегетативно-инстинктивный (по В. В. Ковалеву, 1979) уровень нервно-психического реагирования. По мере созревания произвольной активности накопление поведенческого репертуара человека все более определяется результатами взаимодействия со средой. Такие вновь приобретаемые формы поведения получили название оперантных (от лат. operatio - действие), поскольку в этом случае первично действие, производимое в отношении окружающей среды. Будет ли это действие повторяться или, наоборот, избегаться - это зависит от вызванных им последствий, их желательности или нежелательности для организма. И реактивные, и оперантные формы поведения подчиняются одним и тем же закономерностям; в общем случае обусловливание определяется ассоциацией между двумя стимулами или между поведением и его результатом.

Э. Торндайк (1898) открыл тип научения, названный им «методом проб и ошибок»: встретившись с каким-либо препятствием, индивидуум совершает попытки преодолеть его и, постепенно отказываясь от неэффективных действий, находит решение задачи. В своих опытах Э. Торндайка использовал так называемые проблемные клетки, в которые он помещал голодных кошек. Клетки открывались лишь в случае, если животное, пытающееся выйти к лежащей снаружи приманке, найдет соответствующий способ - случайный (потянет за веревку или приподнимет крючок) либо оптимальный (нажмет на педаль, соединенную с веревкой, приподнимающей запорный крючок). Проанализировав данные о числе попыток, необходимых для нахождения оптимального способа открывания клетки, и о влиянии на этот процесс предшествующих, «нечаянных» случаев освобождения, исследователь сформулировал закон эффекта.- Он гласит, что, если какое-то действие приводит к желательным результатам, вероятность его повторения возрастает, а если к нежелательным - то снижается. Если быть еще точнее, связь между действием и его результатом для индивидуума тем сильнее, чем большее удовлетворение доставляет этот результат. Нежелательный или безразличный результат эту связь ослабляет.

Следует констатировать, что научение методом проб и ошибок само по себе не очень эффективно и что одним случайным «изобретением» новых форм поведения трудно объяснить быстрое приобретение новых навыков людьми и домашними животными. Наряду с данным способом выработки навыков, существовавшим на протяжении миллионов лет, в эволюции человека несомненно складывались и другие, более совершенные способы формирования и передачи новых типов поведения.

В 40-е годы XX века американский психолог Б. Ф. Скиннер развил концепцию Э. Торндайка, отказавшись от таких необъективных понятий, как удовлетворение и неудовлетворение, и сформулировав принцип подкрепления: то или иное поведение чаще повторяется, если приводит к определенным последствиям - к ситуациям, играющим роль подкрепления. Таким образом, в теории Скиннера подкрепление - это событие, которое повышает вероятность повторения в будущем поведенческой реакции. Б. Ф. Скиннер разработал способ формирования сложных форм поведения путем последовательных приближений, который составил основу концепции и метода оперантного обусловливания.

Суть метода «оперантного обусловливания» (Skinner В. Е, 1984) заключается в создании связи между поведением и его результатом при помощи повторяющихся «подкреплений», т. е. предлагаемых либо устраняемых позитивных и негативных последствий. При этом весь путь от исходной реакции (еще до начала обучения) до конечной поведенческой модели, разбивается на несколько этапов, каждый из которых последовательно и систематически подкрепляется.

В экспериментах Б. Ф. Скиннера голубь, сидящий в клетке, награждался зерном вначале каждый раз, когда оказывался в нужной ее половине, затем только тогда, когда, находясь на этой половине клетки, поворачивал голову в нужном направлении, далее только в том случае, если эти два условия сопровождались направлением его клюва в сторону пластмассового кружка, расположенного на стенке. Следующий этап заключался в подкреплении случаев касания кружка клювом, и, наконец, подкреплялась лишь конечная цель обучения - удар клювом по кружку.

Принципиально важно приступать к очередному этапу обучения лишь при сформулированной поведенческой реакции, выработке которой был посвящен предыдущий этап. Такой способ моделирования сложных форм поведения широко применяется при дрессировке животных.

Аналогичный путь освоения человеческого лексикона прослеживается у ребенка. Первые членораздельные звуки вызывают бурный восторг окружающих, стимулируя их повторение. Затем энтузиазм взрослых остывает до тех пор, пока в лепете ребенка не появятся сочетания звуков, напоминающие слово «мама» и т. д. Такое избирательное поощрение со стороны членов семьи заставляет младенца отбрасывать неправильные реакции, за которые он не получает социального подкрепления, и сохранять те, которые близки к ожидаемому результату. Аналогичным образом, игнорирование ребенка в тот момент, когда он стремится привлечь к себе внимание капризами, нытьем, «истериками», и позитивное общение с ним при демонстрации социально одобряемых поступков обеспечивает дифференцированный отбор в его поведенческий репертуар более зрелых шаблонов.

Различными сторонами процесса подкрепления являются рассмотренные выше механизмы угасания, дифференцировки и генерализации или иррадиации (по И. П; Павлову).

Инструментальные (оперантные) условные рефлексы отличаются от классических (павловских) активностью отбора поведенческого стереотипа, большей естественностью. Классический условный рефлекс формирует «экспериментатор» (дрессировщик, родитель, воспитатель, терапевт), обеспечивающий повторное попарное предъявление нейтрального стимула и специфического стимула врожденной реакции. В экспериментах Скиннера животное само (под влиянием дискриминантного стимула, сигнализирующего о возможности получить награду или наказание) осуществляет отбор нужного поведенческого эталона из своего репертуара, ориентируясь на результирующий эффект. Стимул определяется самой «жизнью» (реалиями естественной среды обитания, законами общества, принципами коллектива, традициями семьи), отвечающей на активное поведение субъекта удовлетворением или фрустрацией его потребностей (как врожденных, так и сформировавшихся после рождения).

По мнению Б. Ф. Скиннера и других бихевиористов, именно таким образом происходит выработка большинства поведенческих реакций у человека. Подобная абсолютизация роли внешней мотивации, создаваемой подкреплением, и игнорирование значения внутренней мотивации встречает справедливую критику со стороны представителей как когнитивной, так и гуманистической психологии (Годфруа Ж., 1992). При идентификации контекста предшествующего (дискриминантного) стимула (что является, по сути, когнитивным актом) задействуются мозговые структуры более высокого уровня, чем при срабатывании условного рефлекса. Уровень должен обеспечивать организму возможность использовать для обучения собственный опыт.

В 1960-е годы парадигма оперантного обусловливания в форме «планов оперантного подкрепления» широко применялась для коррекции нарушенного поведения госпитализированных детей, а также в школах в форме «программированных уроков».

Примером сочетания классического условного рефлекса и оперантного научения являются эксперименты по исследованию поведения избегания (Mourer О. Н., 19б5; Miller H.E., 1963, цит. по А.П. Федорову, 2002). После того как вслед за условным сигналом включался ток, животное в результате хаотических прыжков по клетке случайно обнаруживало спасительную площадку, на которую приучалось запрыгивать, не дожидаясь начала болевой стимуляции. Поведение избегания стойко осуществлялось всякий раз после включения условного сигнала, и в последующих опытах, несмотря на то, что ток больше не включали, подобная реакция стала бессмысленной. Чтобы животное об этом «узнало» и поведение избегания перестало подкреплять самое себя, экспериментаторы вынуждены были внести изменения в процедуру опыта: действие условного раздражителя (звукового сигнала) продолжалось и после начала демонстрации реакции избегания, т. е. условный сигнал опасности «обесценивался» в реально безопасной обстановке. Другой способ быстрого погашения реакции избегания - удаление от животного «площадки безопасности». Это обусловливало форсированное тестирование реальности, поскольку за время, явно достаточное для возникновения болевого «подтверждения» целесообразности стереотипного поведения, подкрепления не наступало.

Описанные механизмы погашения зафиксировавшейся реакции избегания используются при лечении фобий и навязчивых ритуалов, в частности в форме представления устрашающих объектов в субъективно комфортной ситуации и лишения возможности реализовать избегающее поведение в пугающей, но реально безопасной обстановке (методика «наводнения»).

Третий способ торможения реакции избегания - имитирующее моделирование, которое осуществляется с помощью животного, не подвергавшегося воздействию электрического тока. Новое животное запускают в тот же ящик, и оно демонстрирует спокойное «реалистическое» поведение. Терапия и профилактика неофобии (страха нового), типичной для аутистов и детей младшего возраста, включает не только привыкание к незнакомой и потому пугающей обстановке, но и наблюдение за тем, как другие дети ведут себя в этих условиях. Адаптация к новому коллективу происходит успешнее, когда у человека есть возможность «присмотреться» к нему.

Напечатать

или

Оперантное обусловливание в психологии. Научение: классическое vs. оперантное. Определения, значения слова в других словарях

Похожие записи: