"Работа-игра (дрессировка собак — детекторов запахов)" - читать интересную книгу автора (Федорович А. Ю.)Психические процессы и поведениеЕсли попытаться разбить поведение животного на отдельные самостоятельные элементы, некие, в свою очередь не делимые, «элементарные частицы», мы придем к понятию поведенческого акта. Поведенческий акт — это единица поведения животного, начинающаяся с момента появления мотивации и заканчивающаяся эмоциональной оценкой результата действия по удовлетворению этой мотивации. Т.е: «хорошо» — мотивация удовлетворена. «Плохо» — мотивация не удовлетворена, для её удовлетворения необходим новый, отличающийся от первого, поведенческий акт. «Удовлетворительно» — мотивация удовлетворена частично (можно на этом закончить, а можно попробовать достичь цели ещё раз, по-другому). Что это означает, и в первую очередь, — что такое мотивация? Понятие очень важное, можно сказать, имеющее мировоззренческое значение. В любой момент времени у каждого животного есть определённый набор потребностей (желаний). Например, собаке одновременно может хотеться и пить, и есть и, предположим, спать. Какое-то из этих желаний в данный момент времени является ведущим (самым сильным). Его мы и называем мотивацией. Мотивация, в свою очередь, порождает драйв, — стремление действовать с целью удовлетворения мотивации, «жажду деятельности». Интуитивно содержание этого понятия мы ощущаем по аналогичному термину в современной музыкальной культуре. (Если музыка «заводит», то в ней есть драйв). Поскольку поведенческий акт вызван появлением мотивации, — деятельность животного не является простым ответом на раздражители. Животное действует, поскольку хочет достичь определённого результата. Животное делает то, что оно хочет делать, т. е. не является щепкой плывущей по течению, оно барахтается, оно может поплыть и против течения! Если бы поведенческий акт представлял собой просто цепочку рефлекторных действий, можно было бы именно рефлекторное действие рассматривать как единый и неделимый элемент поведения. Однако, поведенческий акт отличается от простой последовательности рефлексов наличием плана действий и прогноза своего результата. Эта неотъемлемая функция поведенческого акта называется функцией опережающего отражения. Реализация поведенческого акта осуществляется при помощи функциональной системы, т. е. определенной организации структур и процессов организма, обеспечивающей достижение необходимого полезного результата. Для того чтобы сделать шаг, необходимо участие, грубо говоря, «мозгов да ног». Участие же, например, лицевых, мимических мышц, для того чтобы шагнуть, определённо не обязательно. Т. е. функциональная система, формируемая для реализации намерения шагнуть, включает в себя не все, а лишь избранные органы и при этом задействуются не все, а лишь некоторые функции, присущие этим органам. (Например, способность нашей «абстрактной ноги» ощущать температуру при шаге обычно не используется). Для каждого действия формируется своя функциональная система, и между участвующими в ней структурами устанавливаются уникальные, свойственные именно этому действию связи. Функциональная система формируется в результате проб и ошибок на основе генетического (врождённые формы поведения) и индивидуального опыта. Критерием формирования является эффективность достижения результата. Реализация поведенческого акта сопровождается эмоциями. Степень удовлетворения потребности вызывает соответствующие эмоции. Поведенческий акт строится из последовательных стадий: афферентного синтеза, принятия решения, акцептора результатов действия, эфферентного синтеза, собственно осуществления действия и оценки достигнутого результата (рис.1). Драйв, вызванный мотивацией, является движущей силой, «мотором» поведенческого акта и действует на протяжении всех его стадий. Первая стадия поведенческого акта, афферентный синтез, заключается в синтезе нервной системой значимых сигналов внешней и внутренней среды, т. е. сигналов, имеющих значение для удовлетворения мотивации. На результат афферентного синтеза, кроме мотивации, оказывают влияние: информация, хранящаяся в наследственной и приобретенной памяти, обстановочная афферентация (анализ действия всей совокупности внешних факторов, на фоне которых протекает поведенческий акт) и пусковая афферентация (сигнальный элемент афферентного синтеза, запускающий поведенческий акт). Например, мой пёс Нестор захотел поиграть со мной, т. е. у него возникла игровая мотивация. Прежде, чем воплотить своё намерение в жизнь, он оценивает значимые внешние (где мы находимся, чем я занят, какое у меня настроение), и внутренние (хорошо ли он сам себя чувствует, насколько в данный момент ему хочется спать или есть) факторы. При этом наследственная память подсказывает ему, какие именно формы игры предпочтительны (чаще всего это элементы охотничьего поведения). Приобретённая память помогает Нестору оценить свои шансы — насколько в похожих ситуациях хозяин был склонен к игре в прошлом. На глаза Нестору попадается теннисный мяч — это последняя капля. Нестор принимает решение. Т. е. вид мяча послужил сигналом, запускающим поведенческий акт (пусковой афферентацией). По завершении афферентного синтеза начинается стадия принятия решения, определяющая выбор того или иного поведения. Принятие решения заключается в выборе типа поведения и оценке его с точки зрения вероятности удовлетворения мотивации. Нестор решает, какое поведение вероятнее всего приведёт к намеченной цели (игре с хозяином): продолжительный лай, самостоятельная игра с мячом с целью соблазнить хозяина, или подход к хозяину с мячом в пасти? Наличие в памяти собаки навыков (отработанного в прошлом поведения, уже приводившего к удовлетворению данной мотивации) помогает принять правильное решение. В результате принятия решения формируется акцептор результатов действия — своеобразный «макет» будущих событий. Кроме образа цели акцептор результатов действия включает образ способа достижения цели. Нестор представляет себе как саму игру (хозяин бросает мяч, Нестор ловит его, приносит и отдаёт хозяину), так и способ достижения этого желанного состояния (подойти к хозяину с мячом в пасти и попытаться вложить мяч хозяину в руку, виляя хвостом и ловя его взгляд). Из этих двух частей и состоит акцептор действия Нестора. Образ способа достижения цели создан, но он требует детализации: необходимо разработать максимально подробную программу действий, определить в какой именно момент времени нужно послать сигнал (и какой именно сигнал: продолжительность, сила) каждой из мышц, участвующих в поведенческом акте. Стадия создания такой программы называется стадией эфферентного синтеза. Внешне программа ещё не реализуется, но на этой стадии животное полностью готово к действию. Напрашивается аналогия с механическим пианино. Для того, чтобы оно заиграло, необходимо изготовить перфоленту, т. е. пробить отверстия в бумажной ленте. Когда отверстия пробиты, музыкальное произведение полностью готово к исполнению. Хотя ни единый звук ещё не прозвучал, музыка, фактически, уже сыграна. Следующим этапом является собственно действие. Нестор подходит ко мне с мячом в зубах, неистово вращая хвостом и ловя мой взгляд. Тычет мяч в мою ладонь. Если результат действия совпадает с акцептором результатов действия, мотивация удовлетворяется, если же нет, то создается новый акцептор результатов действия с новым образом способа достижения цели. Я занят, я работаю за компьютером, не склонен играть и, поэтому, делаю вид, что не замечаю усилий бедного пса. Нестор неправильно выбрал стратегию поведения, неправильно определил её шансы на успех и, в результате осуществил поведенческий акт, не приведший к цели. Сравнив результат своего действия (я «не ведусь») с образом цели (я бросаю мяч, а Нестор ловит его и приносит мне), Нестор оценивает поведенческий акт как не достигший цели, немного расстраивается и предпринимает следующую попытку: держа в зубах мою ладонь, пытается вытянуть меня из кресла. А за это получит! И это будет очередной отрицательный результат очередного поведенческого акта. Постоянное сравнение реальных результатов действия с образом цели и постоянная коррекция образа способа достижения цели (что за неуклюжий оборот!) обеспечивают целесообразность поведения. Как мы уже говорили, причиной целевого поведенческого акта является мотивация — основная на данный момент времени потребность, определяющая направленность действий животного. Действие при этом направлено на удовлетворение этой потребности, служит более или менее эффективным инструментом удовлетворения потребности и тем самым ведёт к угашению данной потребности (или, по крайней мере, её уменьшению). Так то оно так, да не всегда. Вспомним, что мы договорились называть мотивацией самую сильную на данный момент времени потребность животного и попробуем представить себе как можно больше различных видов потребностей. Сразу приходят в голову пищевая и «питьевая» потребности, потребность в дефекации, в поддержании температуры тела, потребность во сне и другие потребности, именуемые витальными (от латинского vita — жизнь). Есть ещё половая потребность, направленная уже не на поддержание жизни конкретного животного, а на поддержание существования вида в целом. С этими потребностями всё вроде понятно: поел — и есть расхотелось, попил — и больше не лезет, поспал — и всё, не спится. Причём, всё это с удовольствием: и естся, и пьётся, и спится, и так далее… А вот в чистом виде такая потребность есть: в получении удовольствия? Оказывается есть! И это было доказано в известном опыте Д. Олдса с крысами. Крысе, непосредственно в «центр удовольствия» (есть такой в мозгу), вживляли электрод и электрическими разрядами этот центр раздражали. Крысе процесс, естественно, нравился. Затем позволяли крысе, нажимая на педаль, самой посылать импульсы в «центр удовольствия». Эффект превосходил все ожидания. Как только крыса понимала, что нажатие на педаль доставляет удовольствие, она начинала давить на неё раз за разом. При этом крыса отказывалась отвлекаться на удовлетворение витальных потребностей и погибала от истощения. Понятно, что речь тут идёт о, так сказать, «удовольствии в чистом виде», удовольствии максимально сильном из всех возможных. Однако, даже с поправкой на необычайную силу удовольствия, можно сделать два вывода. Первый о том, что стремление к удовольствию — исключительно сильная мотивация. (В этом причина неизлечимости наркомании.) Второй: потребность в удовольствии удовлетворить нельзя. Для нас это важный вывод. Собаку можно перекормить, но нельзя переласкать и перехвалить. Ласка и похвала — наши безотказные орудия. За ласку и похвалу собака готова практически на всё. Разумеется, если похвала исходит от достаточно авторитетного, с её точки зрения, существа. Впрочем, мы немного отвлеклись. Интуитивно понятно, что собакам нравится играть, следовательно, у них существует потребность в игре или игровая потребность. Игры у собак бывают разные. По мнению этологов все они представляют собой ритуализированные, т. е. превратившиеся в ритуал, элементы повседневного жизненно важного поведения (охотничьего, оборонительного, полового). У игровой потребности есть одно существенное отличие от потребностей витального ряда. Пищевая потребность возникает при отсутствии в крови животного питательных веществ и вызывает поведение, ведущее к насыщению. То же и с потребностью в питье. А вот потребность в игре существует всегда. И вызывает она поведение в виде игры, которое не ведёт к чему-либо, а само по себе — цель данной потребности. Как ни странно, ученые только в середине прошлого века обратили внимание на виды поведения, которые не служат редукции потребностей, но явно подкрепляют сами себя. «Обширные области деятельности, особенно у подрастающего живого существа, создают впечатление «самоцельности», например игра.»[1]. Такое свойство некоторых видов поведения принято называть интринсивностью, в отличие от экстринсивности, т. е. направленности поведения на внешний результат (например, насыщение). «Какого-либо единства взглядов по вопросу о том, чем различается интринсивно и экстринсивно мотивированное поведение, до сих пор не существует. Общим… является лишь понимание интринсивно мотивированного поведения как совершающегося ради себя самого»[2]. По классификации Мак-Рейнолдса[3] интринсивно мотивированными являются лишь такие формы поведения, которые осуществляются только ради протекания самой деятельности. Экстринсивно же мотивированным оказывается все, что направлено на достижение какого-либо конечного состояния или цели. Почему я уделил столько внимания интринсивности игры? Да потому, что в этом — один из волшебных ключиков к дрессировке. Любое поведение, которое мы сумеем сделать игровым, тут же превратится в самоподкрепляемое, т. е. выполняющееся собакой для собственного удовольствия. Выполнение этого поведения не будет вести к снижению мотивации и, поэтому, никогда собаке не надоест (разумеется, в пределах физической и психической выносливости, — всё можно довести до абсурда). Ещё одна очень интересная потребность — оборонительная. Её название нельзя понимать буквально, ведь речь идёт не только о защите (обороне) но и о нападении. Следует различать пассивно-оборонительное поведение («застывание», ступор), активно-оборонительное поведение (бегство, избегание), и агрессивно-оборонительное поведение (активная оборона, нападение). Мотивацией последнего является агрессия. Причём, агрессивное поведение, также как игровое, может быть интринсивно мотивированным. По мнению основоположника этологии К. Лоренца в организме животных и человека постоянно накапливается особого рода энергия агрессивного влечения, причём накопление происходит до тех пор, пока в результате воздействия соответствующего пускового раздражителя (пусковой афферентации) она не разрядится. В результате реализации агрессивного поведения достигается позитивное эмоциональное состояние. Т. е. агрессия, как поведенческая мотивация, для дрессировщика не менее важна, чем игровая мотивация. Возможности использования агрессивной мотивации в профессиональной дрессировке трудно переоценить. Итак, подводим итог: современная дрессировка основана на активной целенаправленной деятельности животного (инструментальное поведение), а соответствующий дрессировочный процесс состоит из: — создания у животного необходимой для совершения им желательных действий (поведенческих актов) мотивации; — формирования (или выбора) желательного поведенческого акта из всего спектра поведения, направленного на удовлетворение созданной мотивации; — закрепления сформированного (выбранного) поведенческого акта с помощью многократного, непосредственно следующего за каждым повторением этого акта, удовлетворения наличной мотивации (в дальнейшем мы будем называть инспирированное дрессировщиком удовлетворение мотивации, следующее за закрепляемым поведенческим актом, — подкреплением), то есть, формирования инструментального рефлекса путём связывания, ассоциирования поведенческого акта с удовлетворением мотивации. И, наконец, формирование навыка — инструментального рефлекса, характеризующегося автоматизмом воспроизведения; — введения стимульного контроля сформированного навыка, т. е. выработки стойкой связи между каким-либо раздражителем (чаще всего командой) и выполнением навыка, в результате чего этот раздражитель, в качестве пусковой афферентации, становится санкционирующим стимулом, а навык, приобретая санкционирующий стимул, начинает функционировать как условный рефлекс (подчёркиваю,только как условный рефлекс, по механизму условного рефлекса, поскольку в основе сформированного навыка нет безусловного рефлекса, что предполагает классическая схема); — введения рамочного контроля — чаще всего в виде расширения перечня обстановочных афферентаций, разрешающих пусковую афферентацию (генерализация навыка). Остановимся подробнее на каждой из этих пяти стадий. 1. Мотивация. Совершенно понятно, что для того, чтобы создать у собаки пищевую мотивацию, животное нужно на какое-то время лишить пищи. Причём, при всей индивидуальности пищевых реакций у различных собак, не следует питать иллюзий, — если речь идёт о создании именно пищевой мотивации, животное должно основательно поголодать. Как это ни печально, но принято считать, что пищевая потребность начинает доминировать при снижении массы тела животного на 20 — 30%. Согласитесь, это несколько ограничивает область применения пищевой мотивации. Некоторые совершенно ошибочно считают, что, давая собаке то, что мы называем лакомством, то есть маленькие кусочки той пищи, к которой она питает особенное пристрастие, мы подкрепляем пищевую мотивацию. Это совершенно не так. Поощрение лакомством — это поощрение удовольствием, положительной эмоцией. Лакомству вовсе не присуще значение еды. Потребность в игре и потребность в реализации агрессивных действий, как мы уже разобрались, являются врождёнными. Однако, для того, чтобы стать мотивацией, потребность должна в данный момент времени доминировать над остальными потребностями. Как этого добиться? Во-первых, ослабить остальные потребности: накормить животное и напоить (без фанатизма, а то на первый план выйдет потребность в дефекации), начинать дрессировку в знакомом собаке тихом месте, в отсутствие посторонних людей, животных и их следов и т. д. и т. п. Во-вторых, развить игровые (то же — агрессивные) формы поведения, путём развития ощущения собственной эффективности животного в этих формах поведения. Повышение собственной эффективности, не важно в чём именно, представляет собой не какой-либо особый мотив, а некоторый руководящий принцип деятельности животного, который пронизывает различные мотивы. Щенок играет с хозяином в «перетягивание каната». После «упорной» борьбы хозяин отдаёт апортик. Но щенок-то считает, что это он, такой сильный и грозный, отобрал апортик. В результате, ценность такого рода игры для щенка повышается, игровая мотивация возрастает. То же и для агрессии, аналогию можете додумать сами. В-третьих, (именно «в-третьих», а не «во-вторых») животное необходимо депривировать по данной потребности, то есть какое-то время не давать животному возможности реализовывать её. Депривацией можно добиться превращения потребности не только в мотивацию, но и в доминанту. Впрочем, с этим понятием мы познакомимся немного позже. А сейчас, к случаю, позволю себе привести, в качестве иллюстрации, обширную цитату из Лоренца: «Крэйг провел серию опытов с самцами горлицы, в которой он отбирал у них самок на ступенчато возрастающие промежутки времени и экспериментально устанавливал, какой объект способен вызвать токование самца. Через несколько дней после исчезновения самки своего вида самец горлицы был готов ухаживать за белой домашней голубкой, которую он перед тем полностью игнорировал. Еще через несколько дней он пошел дальше и стал исполнять свои поклоны и воркованье перед чучелом голубя, еще позже — перед смотанной в узел тряпкой; и наконец — через несколько недель одиночества — стал адресовать свое токование в пустой угол клетки, где пересечение ребер ящика создавало хоть какую-то оптическую точку, способную задержать его взгляд. В переводе на язык физиологии эти наблюдения означают, что при длительном невыполнении какого-либо инстинктивного действия — в описанном случае, токования — порог раздражения снижается. Это явление настолько распространено и закономерно, что народная мудрость уже давно с ним освоилась и облекла в простую форму поговорки: «При нужде черт муху слопает» (русский вариант: «На безрыбье и рак — рыба»); Гете выразил ту же закономерность словами Мефистофеля: «С отравой в жилах, ты Елену в любой увидишь непременно». Так оно и есть! А если ты голубь — то, в конце концов, увидишь ее и в старой пыльной тряпке, и даже в пустом углу собственной тюрьмы. Снижение порога раздражения может привести к тому, что в особых условиях его величина может упасть до нуля, т. е. при определенных обстоятельствах соответствующее инстинктивное действие может «прорваться» без какого-либо видимого внешнего стимула. «Накопление» инстинкта, происходящее при долгом отсутствии разряжающего стимула, имеет следствием не только вышеописанное возрастание готовности к реакции, но и многие другие, более глубокие явления, в которые вовлекается весь организм в целом. В принципе, каждое подлинно инстинктивное действие, которое вышеописанным образом лишено возможности разрядиться, приводит животное в состояние общего беспокойства и вынуждает его к поискам разряжающего стимула». 2. Формирование или отбор поведенческого акта. Предположим, что нам необходимо сформировать навык «лай по команде». Попробуем подразнить собаку, привыкшую играть с апортировочным предметом, этим предметом, держа его вне пределов досягаемости. Можно предположить, что собака сначала попробует ухватить апортик в прыжке, затем, после неоднократных неудач, скорее всего, залает от возмущения. При первом же «гав» мы подкрепим её поведение, отдав апортик. Подкрепляя, мы отбираем поведенческий акт лая, как желательное для наших целей поведение. Приведённый пример укладывается в рамки первого закона научения, закона проб и ошибок: выработка всякого нового поведения начинается со случайных проб, продолжающихся до тех пор, пока одна из них не приведёт к успеху (удовлетворению мотивации). Применительно к дрессировке, как частному случаю научения, успехом поведенческого акта явится подкрепление вызвавшей его мотивации дрессировщиком. Отбор поведенческого акта — это незаменимый инструмент дрессировщика. Однако зачастую нам пришлось бы ждать целую вечность, пока собака изволит проявить желательное для наших целей поведение. В таких случаях следует подумать о том, как это поведение сформировать. Предположим, что нам необходимо сформировать навык обозначения царапаньем места сокрытия источника разыскиваемого запаха (действительно необходимый навык, самый удачный вид обозначения, если речь не идёт о поиске взрывчатых веществ). Можно пойти по пути отбора поведения — на глазах у собаки забросить пахучий апортик под перевёрнутую миску и, прижимая миску к земле, ждать пока собака не попробует выцарапать апортик лапой. Первую же попытку царапанья подкрепить выдачей апортика. Однако, для некоторых собак, предпочтительной реакцией в этой ситуации будет являться, например, лай или пассивное ожидание, или настойчивые попытки засунуть нос под миску. Применительно к таким собакам мы можем попытаться сформировать царапанье, применив вместо миски специальное приспособление — решётчатый конус, сквозь решётку которого собака может просунуть лапу. Естественно, в этом случае собаке гораздо быстрее придёт в голову достать апорт, выцарапывая его из конуса. Вообще говоря, грань между отбором поведения и его формированием весьма условна, — уже создавая, или просто используя конкретную мотивацию, начиная упражнение в определённом месте с определённым окружением, искусственно создавая ситуацию, используя тот или иной реквизит, мы тем самым подталкиваем собаку к тому или иному поведению, то есть, в большей или меньшей степени, формируем поведение. Ведь миска из предыдущего примера — тоже реквизит. Реквизит удобный именно для царапанья. Если бы мы хотели отобрать другое поведение, например обозначение места сокрытия кусанием его, мы применили бы другой реквизит, — в этом случае — картонный ящик или тряпку. 3. Закрепление с помощью подкрепления. Тут всё вроде бы понятно. Действуют второй и третий законы научения. Закон эффекта: удачная, приведшая к удовлетворению мотивации, реакция закрепляется и впредь имеет тенденцию к воспроизведению. Закон упражнения: в результате многократного повторения одних и тех же реакций, реакции автоматизируются. Применительно к дрессировке: тот поведенческий акт, или шире, то поведение, которое дрессировщик подкрепляет, после неоднократного повторения сначала будет проявляться всё чаще и чаще, а затем зафиксируется, превратившись в навык. В терминах поведенческого акта: сравнение результата поведенческого акта с образом цели (акцептирование результата действия) обнаруживает их тождественность и вызывает положительную оценочную эмоцию. Положительная эмоция позволяет зафиксировать образ способа достижения цели в долговременной памяти. Образно выражаясь, эмоция — это резец, который, с каждым повторением удачного (подкреплённого дрессировщиком) действия, оставляет всё более глубокий след в памяти дрессируемой собаки, фиксируя вырабатываемый навык. Очень важно для дрессировщика осознать механизм акцептирования. Совпадение или несовпадение результата поведенческого акта с образом цели осознаётся животным через эмоции. Для управления собакой мы апеллируем к её эмоциям, и любое подкрепление следует понимать именно как обращение к эмоциям собаки. Собака стремится к получению положительных эмоций и пытается избежать отрицательных. Поведение, результатом которого явится получение удовольствия, радости имеет большие шансы проявляться снова и снова. Поведение, результатом которого явится боль, страх, растерянность, отвращение, вряд ли проявится снова. Итак, настал момент, когда мы должны разобраться — что же такое «подкрепление»? К сожалению, в этом вопросе царит большая терминологическая путаница. Логично было бы предположить, что «подкрепить» какое либо поведение, значит то же самое, что и «поощрить» его. Эти слова в обыденной речи — синонимы. В обыденной речи, но, увы, не в теории модификации поведения. Здесь подкреплением называют действие дрессировщика, вызывающее у животного либо положительную, либо отрицательную эмоции и, тем самым, согласно второму закону научения — закону эффекта, либо закрепляющее то поведение, с которым совпадает по времени, либо (после многократных повторений) исключающее его из поведенческого репертуара животного. Далее, вслед за многими авторами, можно было бы назвать подкрепление, вызывающее положительную эмоцию, положительным, а вызывающее отрицательную эмоцию, отрицательным. Однако другой ряд авторов называет положительным подкреплением такое действие дрессировщика, которое ведёт к появлению у животного положительной эмоции или исчезновению отрицательной эмоции, а отрицательным подкреплением — действие, ведущее к исчезновению положительной эмоции или появлению отрицательной эмоции. Последний вариант, с точки зрения содержательности, предпочтительнее. Однако смущает тот факт, что на 4 различных явления приходится лишь 2 термина. Поэтому я предлагаю пойти на компромисс и принять, что подкрепление может выражаться в двух формах: поощрения и наказания. (Разумеется, я знаю, что понятие «наказание» с лёгкой руки Прайор считается нынче чуть ли ни неприличным. Но ведь это всего лишь вопрос терминологии). Итак, поощрение вызывает положительную эмоцию, а наказание — отрицательную. Нужно также учесть, что подкрепление — это действие, ограниченное во времени. С точки зрения собаки, начало поощрения — это, разумеется, хорошо, и поведение, с которым оно совпадёт по времени, становится для неё предпочтительным. И наоборот, окончание поощрения — плохо, и совпадающее с ним по времени поведение становится нежелательным. В свою очередь, начало наказания — плохо, действие угашается. Окончание наказания — хорошо, действие закрепляется. Итак, мы пришли к выводу, что существует четыре вида подкрепления: начало и продолжение поощрения (закрепляющее, положительная эмоция возникает и длится), окончание поощрения (угашающее, положительная эмоция исчезает), начало и продолжение наказания (угашающее, отрицательная эмоция возникает и длится), и окончание наказания (закрепляющее, отрицательная эмоция исчезает). Кстати, когда мы говорим о поощрении и наказании в обыденной речи, мы имеем в виду именно начало поощрения и начало наказания и совершенно упускаем из виду момент их окончания, оказывающий прямо противоположное действие. Есть ещё вариант: нет ни наказания, ни поощрения — этот случай сам по себе эмоционально не окрашен, всё зависит от контекста. В одном случае бездействие дрессировщика воспринимается собакой как поощрение, в другом — как наказание. Например, собака, уже наученная идти «рядом», стремясь на прогулку, натягивает поводок. Дрессировщик не реагирует. Тем самым такое поведение закрепляется. Противоположный пример: собака лает, требуя у дрессировщика лакомство. Дрессировщик не реагирует. Такое поведение постепенно исчезает. Обобщая, можно сказать: что бы ни делал дрессировщик во время дрессировки, его поведение можно описать одним из пяти вышеперечисленных вариантов. И все они для собаки эмоционально окрашены, все воздействуют на её поведение. Вывод о необходимости тщательного анализа и планирования выполнения дрессировочных приёмов предоставляю сделать читателю. Длительность поощрения и наказания, их продолжительность во времени могут вызвать проблемы во время дрессировки. Например: дрессировщик тренирует посадку собаки. В ответ на то или иное воздействие дрессировщика собака садится. Дрессировщик поощряет посадку лакомством. Но даже маленький кусочек сыра собака, как правило, не глотает целиком. Какое-то время, пусть непродолжительное, собака разжёвывает лакомство — и за это время успевает встать! Что, собственно говоря, поощрено в этом случае? Тот же пример — дрессировщик поощрил лакомством посадку собаки. Собака продолжает сидеть. Дрессировщик считает, что начало выработке навыка положено. Но через какое-то количество повторений приёма собака начинает вставать, после того как съест лакомство. Поведение «посадка» закреплялось началом поощрения — лакомства, и в то же время поведение «сидение на месте» угашалось окончанием поощрения — лакомства. Как было бы хорошо, если бы существовало моментальное, не имеющее протяжённости во времени поощрение! Во-первых, точное совпадение во времени с подкрепляемым поведением перестало бы быть проблемой (а такая проблема, и очень серьёзная есть — это подтвердит любой дрессировщик). Во-вторых, не имея протяжённости во времени, такое поощрение имело бы только значение начала поощрения, то есть, значение, вызывающее положительную эмоцию, и не имело бы значения отмены поощрения, вызывающего отрицательную эмоцию. Оказывается, такое поощрение существует. Это условное поощрение, — условный раздражитель, которому с помощью образования условного рефлекса, придано значение поощрения. Более того, поскольку это условное поощрение представляет собой короткий (значительно более краткий чем то поощрение, на которое он вырабатывался) сигнал, оказалось возможным придать ему значение начала поощрения. (Слукавил я, выходит, когда в полемическом задоре убеждал читателей, что условные рефлексы практически не используются в дрессировке. Ещё как используются, — для выработки условных подкреплений.). Итак, условные рефлексы используются в дрессировке активно, — для того чтобы связать произвольный и первоначально индифферентный (ничего не значащий) для собаки стимул с положительной или отрицательной эмоцией, превратив его тем самым в условное подкрепление. Англоязычные дрессировщики называют условное подкрепление специально связанное с тем или иным безусловным «бридж-сигнал», то есть сигнал-мостик. Название, весьма точно отражающее содержание понятия. На понятии условного подкрепления мы остановимся поподробнее, проиллюстрировав его примером из кликер-тренинга, одной из методик оперантной дрессировки (мотивированной дрессировки, обуславливания операнта, кондиционирования операнта и т. д., терминам несть числа). В начале дрессировки тренеры, применяющие кликер (это такая маленькая, щёлкающая при нажатии коробочка) проводят так называемую «презентацию кликера». Основой такой презентации может быть начало любого безусловного поощрения, например игры с апортиком или кормления, выдача лакомства. Дрессировщик щёлкает кликером и тут же даёт собаке лакомство (бросает апортик). И так 30-40 раз. В конце занятия вы заметите: услышав щелчок, собака активно ищет награду. Следующее занятие нужно проводить в другое время дня и в другой обстановке. Задача состоит в том, чтобы собака твёрдо усвоила: щелчок кликера, а не какая-либо обстановка или время суток, предвосхищает награду. Точно так же можно «представить» и свисток и просто короткое слово. Более того, слово в качестве условного подкрепления имеет то преимущество, что обладает интонацией. А тон (высота звука) для собаки является релизером, то есть врождённо понятным сигналом. Высокий (но не на уровне визга) тон — положительная эмоция, так мать поощряет щенков, низкий тон — отрицательная эмоция, угроза. Таким образом, слово — подкрепление условное, но, частично и безусловное (имеет безусловную компоненту). Все дрессировщики этим интуитивно, по аналогии с человеческим общением, или осознано пользуются в той или иной мере. Точно так же, с помощью образования условного рефлекса, можно связать с каким-нибудь сигналом (словом) и начало наказания (пример: команда «Фу»), и окончание наказания, и окончание поощрения, и даже ситуацию «ничего не происходит», в значении «следует продолжать попытки». С этим значением слова «ищи» мы столкнёмся в ближайшем будущем при изучении этапов дрессировки собаки-детектора. Кликер-дрессировщики в своей практике избегают прямых наказаний, предпочитая им отмену поощрений или непредоставление поощрений. Они справедливо утверждают, что как только собака понимает суть метода: отказ в поощрении мотивирует её, чтобы пробовать кое-что еще, она охотно экспериментирует с новым поведением. Однако, если неправильный выбор наказан, собака, из-за страха получения нового наказания, может начать сомневаться, стоит ли предлагать другое поведение. «Игнорируйте нежелательное поведение в максимально возможной степени. Каждый раз, когда Вы укрепляете желательное поведение, это походит на добавление денег к счету в банке. Чем больше денег на счету, тем более сильны отношения с вашей собакой. Положительное наказание — даже если оно эффективно — удаляет деньги из этого счета в банке, и это ослабляет отношения. Если Вы решились использовать физическое наказание, посмотрите на эффект. Действительно ли поведение не только временно приостанавливается, но и случается менее часто? В противном случае это не исправление поведения путём наказания — это злоупотребление властью»[4]. Остаётся сказать о том, что часто называют «расписанием подкрепления». Снова позволю себе обширную цитату, на этот раз из Stacy Braclay-Scheck «Как учатся люди и собаки»: «Расписание подкрепления определяет, как часто поведение надо подкреплять. Есть 5 видов расписания: с фиксированным интервалом (ФИ), фиксированным отношением (ФО), изменяемым интервалом (ИИ), изменяемым отношением (ИО) и произвольное (ПР). ФИ — фиксированный интервал означает, что подкрепление дается после фиксированного интервала времени. Например, каждые 5 минут. Пример: оплата работы — через каждые 2 недели я получаю чек (т. е. условное поощрение). ИИ — изменяемый интервал означает, что подкрепление дается после варьируемого интервала времени. Иногда это 5 минут, иногда 3, иногда 7 или 1. Моя электронная почта работает в этом режиме — с изменяемым интервалом времени я получаю письма (а для меня это положительные эмоции!). ФО — фиксированное отношение означает, что поведение будет вознаграждаться один раз за N исполнений. Фиксированное отношение 1:3 означает, что каждое третье поведение будет вознаграждено. Этот вид отношения имеет тенденцию ухудшать исполнение поведения у некоторых животных и людей, так как они знают, что первые 2 попытки не будут вознаграждаться, а третья будет вознаграждена несмотря ни на что. Фиксированное отношение 1:1 означает, что каждое правильное исполнение поведения будет вознаграждено. ИО — изменяемое отношение означает, что вознаграждение будет выдаваться, основываясь на каком-то среднем количестве правильных исполнений поведения. Изменяемое отношение 1:3 означает, что в среднем одна из трех попыток будет вознаграждена. Поощряться может первая попытка, а может и третья. Это отношение часто называется изменяемое расписание подкреплений. Произвольное расписание означает, что нет никакой очевидной связи между поведением и его последствиями. По этому принципу работает Фортуна». На этапе научения (отбора или формирования поведенческого акта) поощряться должно каждое «правильное» действие собаки. Так собака быстрее поймёт, что от неё требуется. В то же время на этапе автоматизации отобранного поведенческого акта (выработка навыка) подкреплять его выполнение лучше с изменяемым расписанием подкреплений. Закреплённый таким образом навык угашается в отсутствие подкрепления значительно медленнее, чем закреплённый при 100% подкреплении. Более того, творчески используемое изменяемое расписание подкреплений позволяет довести в процессе выработки навыка составляющий его основу поведенческий акт до совершенства, подкрепляя всё более удачные его выполнения (правда, это уже будет не совсем классическое изменяемое расписание, но собака-то об этом всё равно не узнает). Прочное закрепление навыка при изменяемом расписании подкрепления можно пояснить с помощью аналогии. Если вы бросили монетку в автомат, продающий газеты, и ничего не получили взамен, вряд ли у вас возникнет желание бросить ещё одну в надежде, что на этот раз автомат сработает. Скорее вы, зная принцип работы этого автомата: газета в обмен на деньги, сочтёте его неисправным. Однако в игральный автомат вы будете бросать монету за монетой, — вы ведь и не ожидаете мгновенного результата. Так и собака будет выполнять навык раз за разом без поощрения, зная, что рано или поздно она его получит. Говоря о подкреплении, нельзя не остановиться на одной интересной (и неожиданной) особенности интринсивного поведения. Оказывается, если животное вознаграждается за нечто, что оно делает или сделало по собственному желанию, то такое вознаграждение будет способствовать ослаблению интринсивной мотивации. И наоборот, если животное не вознаграждается за неинтересную, предпринятую им только ради вознаграждения деятельность, то интринсивная мотивация к ней может усилиться. Из этого следуют два вывода. Первый: если формируемый навык является разновидностью игрового поведения, поощрять его чем-либо «посторонним» для этого поведения (например, лакомством) не следует. Более того: «Обнаружено, что материальное поощрение сильнее снижает показатели интринсивной мотивации, чем символическое или вербальное»[5]. (Забегая вперёд, это к вопросу о том, почему не следует подкреплять поиск пищей и лакомством). С агрессивным поведением дело обстоит аналогично. Второй вывод: собака изначально склонна считать дрессировочный процесс и отрабатываемые навыки игрой. Если мы не будем ей в этом мешать. 4. Стимульный контроль. Итак, навык сформирован, и вот на этом-то этапе мы начинаем, как говорят некоторые дрессировщики «ставить навык на команду», то есть, вводим стимульный контроль навыка. Чаще всего в качестве стимула, разрешающего выполнение навыка (пусковая афферентация) используется команда. Предвижу недоумение читателей, имеющих опыт дрессировки: «Что, собственно говоря, мешало нам начать подавать команду значительно раньше, ещё на этапе отбора (формирования) поведенческого акта?» Ответ прост, — если навык ещё не сформирован, требуемое действие выполняется далеко не безотказно. Начиная вводить команду на этом этапе, мы фактически приучаем собаку к тому, что команда не обязательна для выполнения. Опытные дрессировщики знают, какой непоправимый вред наносит каждое невыполнение команды, чем бы оно ни было спровоцировано, и как далеко оно отбрасывает назад обучаемое животное. Поэтому мы начинаем подавать команду (вводить санкционирующий стимул) только тогда, когда навык сформирован, и можно быть уверенным в безотказности его выполнения. Связь между навыком и вводимой командой создаётся по принципу условного рефлекса: команда и соответствующее ей действие ассоциируются, будучи совмещёнными во времени. 5. Рамочный контроль. Смысл рамочного контроля отрабатываемого навыка более-менее понятен из самого названия. Чаще всего постановка навыка на рамочный контроль означает расширение рамок тех условий окружающей среды, в которых навык выполняется безотказно. То есть, приучение собаки к безусловному выполнению навыка по команде всегда и везде. В этом деле очень важна постепенность и учёт в каждой конкретной ситуации доминирующей потребности собаки — мотивации, позволяющей прогнозировать её поведение. Например, укладывая собаку «на выдержку» в таком месте, где мимо неё то и дело пробегают нахальные кошки и коты, нужно отдавать себе отчёт в том, что в один прекрасный момент желание поймать кошку станет у собаки сильнее, чем желание заслужить вашу похвалу. К присутствию кошек, как и ко всем прочим отвлекающим и порождающим стресс факторам, животное надо приучать постепенно. Кстати говоря, кошки — это настоящий «бич божий» для кинологов, работающих с собаками — детекторами запахов, и приучение к стабильной работе в их присутствии, задача весьма серьёзная. Однако мы немного отвлеклись. Смысл рамочного контроля в том чтобы собака стабильно работала в любых условиях и в любое время дня и ночи. Это означает что, шлифуя рабочие навыки собаки, дрессировщик должен предвидеть все осложнения, которые могут встретиться в работе и заранее подготовить к ним собаку. Ещё один вид рамочного контроля — это сужение рамок, в которых выполняется навык. Например, в таком виде: команда выполняется, если она подана хозяином и не выполняется, если подана посторонним. Расширение рамок условий, в которых выполняется навык, называется генерализацией навыка, а сужение — специализацией. Со специализацией навыка мы вплотную столкнёмся, когда будем обсуждать обучение собаки дифференцированию (различению) запахов. |
||||
|