aprendizaje completos valeria de simone temas 1 9

-PSICOLOGIA DEL APRENDIZAJE-

1

TEMA 1: INTRODUCCION.

ASPECTOS HISTORICOS

Raíces: Rene Descartes.

Antes de Descartes el humano estaba determinado por la intención consciente y por el libre albedrio. Los actos de una persona eran resultados de su voluntad, e intención

deliberada. No respondían ni a estímulos ni a leyes naturales. Descartes reconoce que muchos actos de las personas son respuestas automáticas a estímulos externos. No

abandona completamente la idea del libre albedrio y la intención consciente, por lo que formula el conocido “dualismo cartesiano” que sostiene que existen dos tipos de

conducta: la voluntaria que se debe a la voluntad consciente de actuar, y la involuntaria, que son respuestas automáticas a estímulos externos, medida por el mecanismo

del reflejo. El proceso consiste en que los sentidos detectan estímulos del ambiente, los nervios llevan la información sensorial al cerebro, el cual transmite un impulso a

través de los nervios, hacia los músculos, que realizan una respuesta involuntaria. La entrada sensorial se refleja en la respuesta, por eso se llama comportamiento

involuntario reflejo.

Debemos tener en cuenta que asume que los estímulos externos son la única causa de toda la conducta involuntaria. Y también asume que solo un conjunto de nervios son

los que participan, primero transmitiendo la información de los sentidos al cerebro y luego del cerebro a los músculos.

También asume que los animales solo actuaban por conductas involuntarias, Y eran incapaces de realizar conductas voluntarias, conscientes y de libre albedrio porque

carecían de mente o alma.

El cuerpo (cerebro) y la mente estaban conectados por la glándula pineal. Por esta razón, desde la mente se podían realizar acciones voluntarias que no respondían a

ningún estimulo o acciones involuntarias.

A partir de Descartes, y de su dualismo mente-cuerpo, surge el mentalismo, que se ocupa del contenido y funcionamiento de la mente, y la reflexología que se ocupa del

mecanismo de la conducta involuntaria. Ambas bases del estudio del aprendizaje moderno.


2

DESARROLLO HISTORICO DEL ESTUDIO DE LA MENTE

� Innatismo: según Descartes, al considerar que la mente estaba conectada con el cerebro, creía que ésta poseía contenidos provenientes de las experiencias

sensoriales. Al mismo tiempo, creía que la mente contenía ideas innatas, como el concepto de Dios, de sí mismo, etc. Además creía que la mente no funcionaba de

forma predecible y ordenada de acuerdo a reglas o leyes que se puedan identificar.

� Tomas Hobbes, plantea una alternativa. Acepta las conductas voluntarias e involuntarias, y que éstas son controladas por la mente, pero considera que la mente

opera de forma predecible bajo leyes. Propone que la conducta voluntaria está gobernada por el hedonismo: las personas siempre tratan de lograr placer y evitar

dolor.

� Empirismo: sostiene que no hay ideas innatas. Cuando nacemos nuestra mente está en blanco, las ideas de las personas se aprenden después de nacer. No hay

ideas preconcebidas. La mente se rellena con ideas e información que la persona adquiere a través de experiencias sensoriales. En cuanto al funcionamiento de la

mente, sostienen que esta funciona por medio de la asociación. Es decir, las sensaciones simples se combinan hasta formar ideas complejas. Aceptan dos conjuntos

de leyes: las leyes primarias, que habían sido formuladas por Aristóteles basadas en los principios de contigüidad, similitud y contraste. Los empiristas estudiaron la

contigüidad sosteniendo que si dos eventos ocurren juntos en el espacio o en el tiempo, de forma repetida, quedaran asociados (ej.: salsa de tomate-pasta). Las

ideas secundarias las establecieron varios filósofos. Por ejemplo, Brown estableció que la formación de asociaciones entre dos sensaciones, estaba influida por

varios factores. Por ejemplo, intensidad de las sensaciones, frecuencia con la que ocurrían conjuntamente, etc. No se investigaron los mecanismos de asociación

hasta el siglo XIX, con Ebbinghaus, quien invento las silabas sin sentido de tres letras. Estudio listas y midió la capacidad de recordarlas. Comprobó que asociaba

mejor las silabas cuanto más entrenaba, también comprobó que las silabas que estaban juntas en una lista se asociaban mejor que las que estaban distantes, y que

una silaba se asociaba mejor a la silaba siguiente que a la anterior.

(mente – empirismo- ebbinghaus- es experimental- tradición mentalista)

(reflejos- pavlov – es experimental – tradición fisiológica)

DESARROLLO HISTORICO DEL ESTUDIO DE LOS REFLEJOS.

� Descartes desarrollo la idea de que la conducta puede ser el reflejo de un estimulo desencadenante. Pero se equivocó en cuanto a los detalles de este acto.

Descartes creía que los mensajes sensoriales que iban de los órganos de los sentidos al cerebro, y los mensajes motores que iban del cerebro a los músculos, iban

por los mismos nervios. Consideraba que los nervios eran tubos huecos y que las transmisiones a través de ellos se hacían por medio de unos gases denominados

espíritus animales, que al llegar a los músculos, entraban y hacía que estos se hincharan y provocaran un movimiento. También creía que los movimientos reflejos

eran innatos.

� Bell y Magendie demostraron que hay nervios sensoriales y nervios motores.

� Swammerdan demostró que la irritación mecánica de un nervio era suficiente para producir una contracción muscular.

� Sechenov: con Descartes se consideraba que el reflejo era responsable de acciones sencillas a estímulos externos. En el siglo XIX, evoluciona esta idea sencilla de

los reflejos y se empiezan a analizar los procesos fisiológicos responsables del mismo. Sechenov propone que los estímulos pueden liberar una respuesta que estaba


3

inhibida. Según esto, la intensidad de la respuesta no depende de la fuerza del estimulo. Puede ser que un estimulo débil provoque una gran respuesta. Sugiere

que la conducta voluntaria y los pensamientos, responden a estímulos débiles y apenas visibles, y son respuestas reflejas.

� Ni Descartes ni Sechenov tuvieron en cuenta la experiencia, que puede hacer que no siempre el organismo responda de la misma forma a lo largo de toda su vida,

ante un mismo estimulo.

� Pavlov mediante investigación experimental demostró que no todos los reflejos son innatos. También hay reflejos que se aprenden.

CAUSAS DE LA INVESTIGACION DEL APRENDIZAJE ANIMAL

� Comienza hace unos 100 años aproximadamente.

� Surge un interés por la cognición comparada y la evolución de la mente, a partir de Darwin y su teoría de la evolución.

� Surge con Pavlov y el nervismo, que sostiene que las principales funciones fisiológicas están gobernadas por el sistema nervioso, un interés por el funcionamiento

del sistema nervioso (neurología funcional).

� Surge también un gran interés por desarrollar modelos animales de conducta humana.

DEFINICION DE APRENDIZAJE

Es un cambio duradero en los mecanismos de conducta que implica estímulos y/o experiencias específicas, y que resulta de la experiencia previa, con esos estímulos y

respuestas o con otros similares. La diferencia con ejecución es que éstas son acciones de un organismo en un momento concreto. Está determinada por muchas cosas

además del aprendizaje, la oportunidad, la motivación, las capacidades. Por lo tanto un cambio en la actuación no puede ser considerado aprendizaje. La ejecución o

conducta de un organismo se utiliza como prueba de aprendizaje. Dado que la ejecución la puede causar diferentes factores, hay que observar detenidamente si una

determinada ejecución refleja aprendizaje o no. Otras fuentes de cambio de conducta y que no se consideran aprendizaje son la fatiga, un cambio en las condiciones

estimulares (encender una luz en medio de una película en el cine), los estados fisiológicos o motivacionales (hambre, sed, hormonas sexuales), la maduración.

DIFERENTES TIPOS DE MECANISMOS CAUSALES

Basados en las cuatro causas descritas por Aristóteles.

� Causas eficientes: son las condiciones necesarias y suficientes para producir un resultado en la conducta. En el caso del aprendizaje, es la experiencia anterior con

estímulos y respuestas específicos, que producen un resultado en la conducta.

� Causas materiales: son los cambios físicos en el sistema nervioso que median en el aprendizaje.

� Causas formales: son las teorías o modelos de aprendizaje, son las explicaciones del aprendizaje a nivel del comportamiento.

� Causa final: son las explicaciones del aprendizaje poniendo énfasis en su función o utilidad.


4

ASPECTOS METODOLOGICOS DEL APRENDIZAJE.

� El aprendizaje solo puede estudiarse desde el método experimental. Hay muchas conductas que pueden estudiarse mediante el método observacional sin necesidad de

experimentar con las posibles causas que las originaron. EJ: como los animales configuran territorios, como los defienden, etc. Pero es necesario experimentar para

descartar que el cambio en la conducta no se produjo por otro motivo, como cambios motivaciones por ejemplo.

� Perspectiva de procesos generales: se tiende a buscar uniformidades y aspectos comunes en los estudios de aprendizaje, en lugar de centrarse en la diversidad. Los

fenómenos estudiados son resultado de procesos más elementales, que operan de forma similar, independientemente de la situación de aprendizaje en la que se

encuentren. La generalidad emerge a nivel de los procesos básicos o elementales. Se asume que existen principios universales de aprendizaje. La generalidad se sitúa

en los principios o procesos de aprendizaje, pero no en los contenidos o la velocidad de los mismos. A pesar de asumir la generalidad en los procesos elementales de

aprendizaje, no es lo mismo que demostrar empíricamente esas similitudes, cosa que sigue siendo necesaria estudiar en las diferentes especies y situaciones. (Leer

pág. 21 investigaciones con animales). Dado que buscamos leyes generales, podemos permitirnos experimentar en situaciones muy simplificadas (un laboratorio,

animales fáciles de criar, estímulos fácilmente reproducibles, etc.), y luego generalizar los resultados a otros tipos de situaciones más cotidianas.

Ética en la investigación experimental

• Cuando trabajamos con seres humanos:

– Participación voluntaria y anónima.

– Consentimiento informado.

– Proporcionar la información sobre las metas del estudio, siempre que esto no afecte a los resultados del mismo (estudios enmascarados).

• Cuando trabajamos con animales no humanos:

– Atención a su salud, comodidad y trato humano.

– Nunca someterlos a dolor, privación o estrés a menos que sea absolutamente necesario.

– En algunos países (EE.UU.), la investigación debe ser aprobada por un comité externo a la institución, incluyendo veterinarios y científicos.

TEMA 2: CONDUCTA ELICITADA, HABITUACION Y SENSIBILIZACION.

Gran parte de la conducta tiene lugar como respuesta a estímulos, es decir, ocurre de forma elicitada. La forma más sencilla es la conducta refleja.

Un reflejo conlleva dos elementos íntimamente relacionados, un estímulo elicitante y su correspondiente respuesta. La relación entre estimulo y respuesta refleja es

consecuencia en la organización del sistema nervioso. El estimulo ambiental de un reflejo, activa una neurona sensorial o aferente, que transmite el mensaje a la medula

espinal. Allí, el impulso neuronal se transmite a la neurona motora o eferente, que activa el musculo involucrado en la respuesta. Los impulsos que se dirigen de una

neurona a otra, pasan por una interneurona.


5

El arco reflejo es el conjunto formado por la neurona aferente, eferente y la interneurona. Este es el número mínimo de conexiones necesarias para que haya acto reflejo.

Pero puede haber más estructuras neuronales involucradas.

Las pautas de acción modal o PAMs, son las secuencias de respuestas típicas de determinadas especies. P. Ej. La respuesta de succión a elementos cercanos a la boca se da

solo en mamíferos. No son pautas fijas, el umbral de estimulación para que la pauta se ponga en marcha varía en función de las circunstancias. Un mismo estimulo puede

tener efectos diversos debido al estado fisiológico del animal, o las actividades que haya realizado recientemente. Los estímulos elicitantes pueden identificarse fácilmente

cuando se trata de reflejos simples. Pero en las PAMs, es algo más complejo identificar el estimulo especifico que elicita la respuesta, ya que esta tiene lugar en el curso de

interacciones sociales complejas. Los rasgos específicos que se requieren para elicitar una PAM, se llama estimulo señal o estimulo desencadenante. Este estimulo es

suficiente para elicitar la PAM. Sin embargo una determinada PAM puede estar controlada por varios rasgos de estimulo de forma adicional. Los estímulos supranormales,

son aquellos rasgos del estimulo señal, que son más efectivos, a la hora de elicitar la PAM.

La organización secuencial de la conducta, son las acciones individuales que se organizan en secuencias de comportamiento, acciones sistemáticamente organizadas con el

fin de lograr una meta. La conducta apetitiva, se refiere a los primeros componentes de la secuencia, tienen lugar en la primera fase, y ponen al organismo en contacto con

los estímulos que desencadenan la conducta consumatoria. La conducta consumatoria son las acciones que concluyen una secuencia típica de respuestas de una especie,

además suelen ser muy estereotipadas a diferencia de las conductas apetitivas. Actualmente se ha ampliado el concepto de conducta apetitiva y se subdivide en búsqueda

general y búsqueda forzada.

Explicación PAM del profesor:

Patrones de acción modal [EL INSTINTO, puede variar]: conducta no es absolutamente rígida pudiendo variar los Es que la provocan o la conducta que desencadena a través

de la experiencia [variación programada genética]

Los patrones de acción modal se caracterizan fundamentalmente porque: • Están presentes en todos los miembros de una especie [≠ sexual]. • Una vez que se

desencadenan, se realiza toda la conducta hasta que se consuma completamente. • Son comportamientos estereotipados [se repiten sin variación, pero con algún margen

de flexibilidad en la ejecución]. • El U. para provocar la actividad varía mucho en función de las circunstancias.

• El mismo E. produce efectos diferentes dependiendo del estado fisiológico del animal y de sus acciones recientes.


6

Básicamente, toda la conducta que se observa en un patrón de acción modal se compone de: 1) E señal: Es capaces de desencadenar una paute fija de acción [programado

genéticamente/ignora el resto de Es]. • Son concretos, puntuales y no sustituibles por otros

• Hacen que se desencadene la R innata ante simulacros.

2) Mecanismos desencadenadores innatos: es el sustrato fisiológico del patrón de acción modal y está programado a nivel neuronal [estructuras neuronales encargadas de

provocar la conducta en la secuencia correcta ante la aparición del estímulo señal]. • posibilitan ps de reconocimiento de determinados patrones estimulares específicos de

cada especie. • aumenta su sensibilidad al estímulo señal cuando no se ha producido un patrón de acción modal recientemente, o cuando la intensidad del estímulo señal

se incrementa.

3) La conducta consumatoria:R observable provocada por la estimulación del mecanismo desencadenador innato [la R final puede variar fruto de la experiencia]. • A

medida que se asciende en la escala filogenética, los patrones de acción modal se encuentran menos determinados innatamente y más influidos por la experiencia.

Diferencias entre el reflejo y el patrón de acción modal:

1. Los animales están motivados durante la realización del patrón de acción modal, no así durante los reflejos.

2. Los patrones de acción modal no se pueden condicionar, mientras q los reflejos sí [se pueden emplear para establecer nuevos reflejos A].

3. Los patrones de acción modal pueden producirse de forma espontánea sin que aparezca el E. señal que las desencadena, dando lugar a lo que se conoce como

actividades en vacío.

EFECTOS DE LA ESTIMULACION REPETIDA.

A diferencia de lo que creía Descartes, la conducta elicitada no es inmutable, se caracteriza por la plasticidad. Puede verse alterada debido a la presentación repetida del

estimulo elicitante, provocando una disminuscion (efecto de habituación) o un incremento en la respuesta (efecto de sensibilización) Estos son cambios conductuales que

resultan de la experiencia previa.

En otros casos, puede haber un cambio conductual pero que no sea a causa de una sobreestimulacion. Por ejemplo, la adaptación sensorial no se considera una

habituación, ya que no hay una estimulación repetida sino una estimulación demasiado potente, que no afecta al sistema nervioso sino a los órganos sensoriales. Es muy

transitoria y no es especifica de la respuesta ya que descienden todas las respuestas a cualquier estimulo que no son bien captados por los sentidos. En el caso de la fatiga,

no se puede considerar habituación ya que a pesar de que ambas se deben a una estimulación repetida, la fatiga sucede en los músculos y no en el sistema nervioso. No es

especifica del estimulo, ya que aunque lo cambiemos el musculo fatigado no podrá ejecutar la respuesta. Es muy transitoria y solo hace falta descansar. En el caso de la

habituación, un cambio en el estimulo vuelve a provocar la respuesta habituada (Ej. zumo limón y luego zumo de lima).

Recordando el concepto de reflejo, y sus tres componentes: 1º el estimulo activa los órganos sensoriales, esto genera impulsos neuronales que se envían al sistema

nervioso central, 2º se transmiten mensajes sensoriales a nervios motores a través de las interneuronas, y 3º los impulsos nerviosos de los nervios motores activan los

músculos dando lugar a la respuesta. Ni en la fatiga ni la adaptación sensorial participa el sistema nervioso.


7

TEORIA DEL PROCESO DUAL DE HABITUACION Y SENSIBILIZACION.

Esta teoría presupone que los incrementos y disminuciones en la tendencia a responder son producto de procesos neuronales diferentes que pueden estar activos al mismo

tiempo. El resultado conductual dependerá de qué proceso es más fuerte. El proceso de habituación se da en el sistema E-R que se activa cada vez que se presenta el

estimulo elicitante. En cambio, el proceso de sensibilización se da en el sistema de estado, que abarca otra parte del sistema nervioso y determina el nivel general de

disposición a responder de un organismo. Se activa solo con eventos excitadores. Con esto se demuestra que la conducta elicitada puede estar influenciada por eventos que

tienen lugar fuera del arco reflejo, ya que el sistema de estado es el que modula la actividad normal de los arcos reflejos.

EJ: el caso de los tableros de ajedrez con los bebes. El tablero 4x4 activo principalmente el sistema E-R y provoco un proceso de habituación. El tablero 12x12 más complejo,

produjo un nivel de activación mayor, y activo no solo el sistema E-R sino también el sistema de estado, por eso al principio hubo un incremento de atención visual. Pero

esta activación no fue lo suficientemente fuerte, y en los siguientes ensayos se logro una habituación.

Las implicaciones de esta teoría son que el sistema E-R y el sistema de estado se activan de forma diferente, el primero siempre que un estimulo elicite una respuesta. Y el

segundo, solo en circunstancias especiales. Por ejemplo, eventos externos como un ruido ambiental intenso, o la presentación repetida del estimulo elicitante, si éste es lo

suficientemente intenso o estimulante.

CARACTERISTICAS DE LA HABITUACION Y DE LA SENSIBILIZACION.

� Curso temporal: Por lo general, duran poco tiempo (lo suficiente para ser considerados formas de aprendizaje), y este tiempo es variable. Depende de la intensidad

de los estímulos. En la habituación, se distingue entre Habituación a corto plazo (se caracteriza además por la recuperación espontanea, y normalmente se da

cuando el estimulo se presenta frecuentemente) y Habituación a largo plazo (normalmente se da cuando el estimulo se presenta de forma más separada).

� Especificidad del estímulo: Habituación: Muy específica del estímulo (cambiamos el estímulo y la respuesta se recupera). Sensibilización: No específica del estímulo.

Cuando el animal se sensibiliza (por estados de alerta, miedo, ingestión de drogas), está hipersensible para casi cualquier estímulo que vaya a presentarse.

� Efecto de un estímulo externo intenso: Un estímulo intenso puede producir en el animal un estado de sensibilización que recupera las respuestas anteriormente

habituadas: Deshabituación. Ejemplo, bebe mirando al tablero, y de repente hay un sonido, vuelve a prestar atención a los niveles altos del principio.


8

APLICACIÓN A LAS EMOCIONES Y LA CONDUCTA MOTIVADA

Las emociones también son conductas, y como tales se les aplica lo que sabemos sobre Habituación y Sensibilización.

La repetición de un estímulo elicitante origina cambios en los sistemas de respuesta relativamente simples. Sin embargo, numerosos estímulos producen en el organismo

efectos mucho más complejos que las respuestas de sobresalto u orientación. Un estímulo puede evocar amor, miedo, euforia, terror, satisfacción, incomodidad, o una

combinación de estas emociones. A continuación vamos a describir el modelo estándar de las emociones evocadas por estímulos complejos activadores de la emoción, y

cómo las repeticiones del estímulo alteran este modelo de las respuestas emocionales. Estos temas han sido desarrollados de la forma más sistemática por la teoría del

proceso oponente de la motivación por Solomon y sus colaboradores.

Reacción emocional Post-efecto (de signo opuesto)

Emoción primaria

La teoría del PO asume que hay que mantener un equilibrio (homeostasis) emocional. Toda emoción primaria activa un proceso oponente de signo contrario para

compensarla.

El proceso oponente empieza siendo más débil que el proceso primario (en nuestro ejemplo, al principio gana la felicidad), pero también aumenta de fuerza más rápido que

el proceso primario. Por lo tanto, con la estimulación repetida, el proceso oponente se va haciendo más fuerte que el proceso primario (en nuestro ejemplo, la tristeza gana

a la felicidad). Esto sería Habituación. “Hacerse fuerte”: significa que gana en intensidad, aparece antes, permanece más tiempo después…

Ejemplo Teoría del proceso oponente

¿Qué sucede cuando se presenta un estímulo activador de la emoción y luego se retira? Considérense, por ejemplo, las reacciones de una adolescente a la que se le deja

por primera vez un coche. Al principio se pondrá muy contenta y excitada. La excitación se irá apaciguando conforme pase el tiempo. No obstante, seguirá contenta. Si

después de un día o dos ya no puede disponer del coche, sus emociones no volverán a la neutralidad. Lo más probable es que poco después de devolver el coche lo eche de

menos. Esta añoranza irá desapareciendo gradualmente.

Es obvio que los diferentes estímulos activadores de la emoción provocan tipos diferentes de respuestas emocionales. Sin embargo, todos los patrones de cambios

ESTIMULO PROCESO PRIMARIO A PROCESO OPONENTE B

EMOCION RESULTANTE (SUMA DE LOS DOS)


9

emocionales parecen tener ciertas características comunes. Solomon y sus colaboradores han llamado a estas características patrón estándar de la dinámica afectiva.

La aparición del estímulo activador de la emoción, como puede ser recibir un coche, suscita una respuesta emocional intensa (alegría), que rápidamente alcanza su punto

máximo. Esta reacción extrema va seguida de una fase de adaptación, durante la cual la respuesta emocional disminuye un poco hasta alcanzar el nivel de equilibrio. El

estímulo (el coche) continúa produciendo emoción (alegría) durante el estado de equilibrio. Cuando cesa el estímulo (cuando la adolescente tiene que devolver el coche), el

estado emocional se transforma rápidamente y aparecen unos sentimientos contrarios a los que se producían en presencia del estímulo. La adolescente ya no está

contenta y anhela el coche. Esta inversión del estado emocional, llamada posrreacción afectiva, decae gradualmente a medida que el sujeto vuelve a su estado normal.

Patrón estándar de la dinámica afectiva. Patrón de cambios afectivos ante estímulo. habituados

¿Cómo reacciona una adolescente una vez que la experiencia de manejar un coche se convierte en una rutina? Si una persona ha tenido muchas veces ocasión de manejar,

recibir un coche no le provocará una alegría igual de intensa que a la persona que lo experimenta por primera vez. El conseguir un coche le producirá probablemente sólo

una reacción suave. Sin embargo, si en ese momento el coche no está a su disposición, se le creará un malestar y una añoranza más intensa que la primera vez. En el

momento que alguien se ha acostumbrado a tener un coche, su falta le originará malestar intenso. Así pues el patrón de cambios emocionales producidos por un estímulo

activador de emociones al que se estaba habituado es diferente del modelo estándar de la dinámica afectiva.


10

En el patrón habituado de respuesta el estímulo suscita solamente una respuesta emocional suave. Sin embargo la posrreacción afectiva es mucho más fuerte que en el

patrón estándar.

Esta teoría sostiene que un estímulo que despierta una emoción saca de la neutralidad al estado emocional de la persona. Se supone que esa desviación de la neutralidad

emocional desencadena un proceso oponente que contrarresta la desviación. Los patrones de comportamiento emocional que se observan inicialmente y después de una

amplia experiencia con el estímulo, son atribuidos a distintos aspectos del proceso oponente y al momento en que este se produzca en relación con el momento en que

ocurre la perturbación emocional primaria.

En conclusión, después de la habituación el proceso oponente se opone con más fuerza a las respuestas emocionales primarias.

Este efecto de la habituación reduce la intensidad de las respuestas emocionales primarias que se observan durante la presentación del estímulo activador de la emoción. Y

también da lugar a una excesiva posrreacción afectiva cuando se retira el estímulo.

Adicción a las drogas y proceso oponente

Las drogas (en general, toda sustancia psicoactiva) activan un proceso primario positivo (euforia, “colocó”), y también un proceso oponente negativo (“bajón”, resaca,

“mono”) que le sigue después.

1. Nada más tomar la droga, el proceso primario gana (“colocó”).

2. Al retirar la droga, el proceso oponente permanece un tiempo (“bajón”).

Con la estimulación repetida, se va haciendo más fuerte el proceso oponente (habituación = tolerancia a la droga). El usuario de la droga que ha desarrollado tolerancia

siente los efectos positivos cada vez menos, y los efectos negativos cada vez más. A veces, el bajón (proceso oponente) puede durar mucho tiempo y ser inaguantable (eso

es “pasar el mono”). Una manera de reducir su duración es volver a tomar la droga para reiniciar el proceso primario. Así se explica la adicción. El adicto no acude a la droga

por sus efectos positivos, sino para detener los efectos negativos… por un tiempo.

Conclusiones: Las presentaciones repetidas de un estímulo elicitante producen cambios, tanto en las respuestas simples como en las reacciones emocionales más

complejas. Los organismos tienden a minimizar los cambios en el estado emocional provocados por los estímulos externos. Según la teoría del proceso oponente de la

motivación, las respuestas emocionales estimuladas por un acontecimiento externo se contrarrestan en el organismo mediante un proceso oponente. Se supone que este

proceso compensatorio u oponente se fortalece con cada nueva aparición dando lugar a una reducción de las respuestas emocionales primarias si el estímulo se repite con

frecuencia. El fortalecimiento del estado emocional oponente resulta evidente cuando se suprime el estímulo.

La habituación, la sensibilización y los cambios de intensidad del proceso oponente son los mecanismos más simples por los que el organismo ajusta sus reacciones a los

acontecimientos ambientales en base a la experiencia previa.


11

CONDUCTA DIRIGIDA A METAS (se amplia en cap. 5, 6 y 7)

La conducta dirigida a metas es lo que se conoce también como conducta instrumental u operante. En este caso la conducta en lugar de estar controlada directamente por

el estímulo (conducta elicitada) está gobernada por las consecuencias de la acción, por ejemplo, una rata presiona una palanquita para obtener una bolita de comida. En

este caso la bolita de comida sería un reforzador, es decir, un estímulo apetitivo que incrementa la probabilidad de una respuesta.

TEMA 3: FUNDAMENTOS DEL CONDICIONAMIENTO CLASICO.

Habituación y sensibilización son dos formas sencillas de aprendizaje. Pero no permiten hacer cosas como: Aprender respuestas nuevas, aprender a responder a estímulos

nuevos, aprender relaciones entre estímulos, aprender a predecir estímulos.

El aprendizaje clásico o pavloviano (por Ivan P. Pavlov) sí permite hacer todas estas cosas. También se le llama condicionamiento clásico o pavloviano.

Ivan P. Pavlov: Estudia la respuesta de salivación en los perros (reflejo). Observa que ésta se puede producir incluso sin que el alimento esté a la vista. Cualquier estímulo que esté presente en el momento de alimentar al perro es capaz de producir por sí solo la salivación, sin que medie la presencia del alimento. El condicionamiento clásico es el mecanismo más simple por el cual los organismos pueden aprender acerca de las relaciones entre estímulos y cambiar su conducta en

conformidad con las mismas. Permite aprovecharse de la secuencia ordenada de eventos de su ambiente y aprender qué estímulos tienden a ir con qué eventos.

Aprendemos a predecir cuándo y qué podemos comer, cuándo podemos superar el peligro, etc.

PRIMEROS AÑOS.

Los estudios sistemáticos del condicionamiento clásico comenzaron con la obra del psicólogo ruso Iván Pavlov.

Esta clase de condicionamiento había sido descubierta por Edwin B. Twitmyer, que la había probado en el reflejo rotular, pero no fue más allá con los resultados y sus

hallazgos fueron ignorados durante muchos años.

Los estudios de Pavlov sobre condicionamiento clásico fueron una extensión de sus investigaciones acerca del proceso de digestión.

Los empleados del laboratorio se referían a las secreciones estomacales provocadas por los estímulos relacionados con el alimento como “secreciones psíquicas” pues

parecían ser una respuesta a la expectación o a la imagen mental de alimento.

Wolfsohn estudió las respuestas salivales a diversas sustancias colocadas en el hocico de los perros usando sustancias de origen animal.

Snarsky amplió estas observaciones a las sustancias artificiales.


12

Las sustancias probadas por ambos tenían características estimulantes visuales como orosensoriales.

Los estímulos orosensoriales son las sensaciones de gusto y textura que se producen cuando algo se coloca en la boca.

Cuando el perro aprende a asociar los rasgos visuales de la arena con sus características orosensoriales se habla de aprendizaje de objeto .

EL PARADIGMA DEL CONDICIONAMIENTO CLASICO

Pavlov se refería al tono o a la luz como el estímulo condicional, porque la eficacia de éste en la provocación de la salivación dependía de parearlo varias veces con la

presentación del alimento.

El alimento, o estímulo de sabor ácido era llamado estímulo incondicional, porque su efectividad en la provocación de la salivación no dependía de ningún entrenamiento

previo.

La salivación que finalmente iba a ser generada por el tono o la luz era llamada respuesta condicional.

La salivación que se provocada siempre por medio del alimento, o sabor ácido, era denominada respuesta incondicional.

CONDICIONAMIENTO EMOCIONAL: Condicionamiento clásico de respuestas emocionales (miedo): Experimento de Watson y Rayner (1920). Experimento rata y bebe

Albert.

Paso 1: La rata no le produce ningún miedo a Albert. (El EC es emocionalmente neutro). Paso 2: Un ruido repentino y fuerte se presenta junto con la rata y asusta a Albert (Estímulo Incondicionado que produce una RI emocional). EC= rata. EI=ruido. RI=miedo.

Tras varios emparejamientos EC+EI (ruido+rata), hacemos un ensayo de prueba: la mera presentación del EC (la rata) sin el EI (sin el ruido) provoca la RC (miedo) a Albert. Una vez adquirido el miedo a la rata, otros estímulos similares al EC (un conejo, la manga de un abrigo de piel) también producen miedo. El miedo se ha generalizado a estímulos parecidos a la rata.

Experimento de Watson y Rayner (1920). Es el más famoso experimento de condicionamiento de emociones (miedo) en humanos. En realidad, el experimentador ha inducido una fobia. Esto demuestra que las fobias son producto de un aprendizaje. Sin embargo, si las fobias se pueden adquirir por aprendizaje, también se pueden curar con aprendizaje. Mary Cover Jones erradicó (extinguió) una fobia adquirida experimentalmente (como la de Albert) mediante un entrenamiento en el que el EC que produce una RC de miedo ya deja de ir acompañada por ruidos aversivos, y en su lugar va seguida por caramelos (EIs apetitivos, o agradables). Las fobias pueden tratarse con técnicas terapéuticas que consisten en un aprendizaje (como en el experimento de Albert).


13

SITUACIONES EXPERIMENTALES.

� CONDICIONAMIENTO DEL MIEDO: Los investigadores, miden el miedo condicionado indirectamente registrando cómo el estímulo condicionado altera la actividad del

animal. Una técnica popular para la medida indirecta del miedo condicionado es el procedimiento de respuesta emocional condicionada (REC). El procedimiento REC,

fue diseñado por Estes y Skinner (1941). Primero se enseña a las ratas a presionar una barra en una pequeña cámara experimental, para obtener comida cómo

recompensa. Cuando se ha presionado la barra unas cuantas veces se administra la comida. Tras un entrenamiento suficiente, las ratas presionan la barra a un ritmo

regular. Después comienza la fase de condicionamiento del miedo, se presenta el EC durante 1 o 2 minutos, inmediatamente seguido de una breve exposición a la

descarga. Hay una separación de entre 15 y 30 minutos entre ensayo y ensayo.

Las ratas no pueden presionar la palanca cuando están paralizadas a causa del miedo. Esto hace que el procedimiento REC resulte útil para medir la supresión de la

respuesta inducida por el miedo; para factores adicionales involucrados en la supresión condicionada. La adquisición del miedo al EC provoca una interrupción de la

respuesta de presión de la palanca para obtener comida. Tras varios emparejamientos del EC con la descarga, el animal suprime su respuesta de presión de la palanca

cuando aparece el EC. La supresión condicionada puede ser completa, de modo que las ratas no presionen en absoluto la barra, en 3 o 5 ensayos de condicionamiento.

Sin embargo, la supresión es específica del EC. Cuando el EC desaparece, los animales vuelven rápidamente a su conducta para obtener comida.

Para medir cuantitativamente la supresión condicionada se calcula una razón de supresión. Los valores siempre serán entre 0 y 1. La fórmula es:

Razón de supresión=__________Respuestas durante el EC_______________ Respuestas durante el EC + Respuestas durante el pre-EC

Cuanta más pequeña es la razón de supresión, más paralizado está el animal, debido a que el EC provoca más miedo condicionado.

Valores:

Suponemos que el valor de respuestas preEC es 30.

Si la rata suprime completamente su respuesta durante el EC, el valor de la razón de supresión es 0. Ya que la formula seria ___0___ = 0.

0+30

Si la rata no altera su comportamiento durante el EC, el valor de la razón es 0,50. Ya que la formula seria ___30__ = 0,5.

30+30


14

A medida que se baja de 0,5 los valores indican mayores niveles de supresión de la tarea. Por lo tanto, la escala es inversa. Los valores más bajos de la razón de supresión indican una mayor alteración en la conducta del animal.

Es una escala inversa. El valor 0 representa la que no hay ninguna respuesta durante el EC, por lo tanto la rata está paralizada por el miedo, y es la mayor supresión de la conducta de presión de la palanca. Mucho cuidado: Al interpretar una gráfica de Razón de Supresión, los valores cercanos a 0 indican buen condicionamiento y los cercanos a 0,5 indican poco condicionamiento.

Que rata ha aprendido más? Rata 1: Es la que más ha aprendido. Rata 2: Es la que menos ha aprendido. Rata 3: ¡Alguien ha metido la pata! Rata 4: Tiene un condicionamiento inhibitorio (ha tenido un entrenamiento inhibitorio, distinto a la Rata 1).

Que rata ha aprendido más ahora? ¡Ojo! Ahora medimos respuesta condicionada en el eje vertical. Por eso, la rata que más ha aprendido es la Rata 3 y la que menos ha aprendido es la Rata 1. Por ejemplo, la RC puede ser el número de segundos que la rata se queda quieta, y el EC un sonido que siempre precede a la descarga.


15

Advertencia: La respuesta condicionada (RC) SIEMPRE es la medida del condicionamiento. Cuanta más RC, más condicionamiento. Con el procedimiento de razón de supresión, la RC es la supresión de una respuesta previamente aprendida. Por eso, cuanta más supresión, más ha aprendido el animal (más miedo condicionado tiene). Con un entrenamiento inhibitorio, pasa algo parecido. La RC es la inhibición de una respuesta anterior. Así se explica que a veces el animal que menos pulsaciones de palanca hace es el que más ha aprendido (bien porque ha tenido un entrenamiento inhibitorio y entonces medimos inhibición, bien porque usamos el procedimiento de la supresión condicionada y entonces medimos supresión. No hay que confundirse. Supresión del lameteo: Es otra técnica para tomar una medida del miedo condicionado en la rata. Antes del entrenamiento, las ratas son entrenadas para beber de un tubito que les proporciona agua constantemente. Cuando la rata se asusta, deja de beber del tubo durante un ratito. Es una medida similar a las pulsaciones de palanca que hemos usado hasta ahora en el procedimiento de supresión. La ventaja es que necesita menos entrenamiento previo para conseguir que una rata beba constantemente del tubo. Así nos ahorramos enseñar a la rata a pulsar la palanca.

CONDICIONAMIENTO DEL PARPADEO:

Parpadeo en dos grupos de niños. EC tono EI soplo de aire. En el primer grupo los EC y EI se presentaban en intervalos “emparejados” de 12 segundos. En cambio, en el segundo grupos, se presentaban con intervalos “desemparejados” de entre 4 y 8 segundos. Este grupo servía de control. Con esto se demostró que el condicionamiento clásico, requiere que los EC y EI estén emparejados, para que el sujeto pueda asociarlos y así aprender a predecir. Ya que el grupo de control, expuesto ante los mismos estímulos, no desarrollo la RC. También se demostró que el aprendizaje inicial puede no ser directamente observable. Aunque los niños del primer grupo, no respondieron mucho en la primera sesión, sí que empezaron a aprender que el EC estaba relacionado con el EI. Esto se hizo evidente, cuando comenzó la segunda sesión. La grafica representa los valores de los dos grupos en la primera y en la segunda sesión.


16

SEGUIMIENTO DEL SIGNO:

Consiste en la aparición espontánea de respuestas de toma de contacto con el EC que son innecesarias para que aparezca el EI. Hearts & Jenkins (1974): Utilizan una jaula con forma de pasillo largo, de manera que la luz que precede a la comida está lejos del comedero. Una Luz (EC) indica que el comedero estará abierto unos segundos (EI). La paloma picotea la luz (seguimiento del signo), de manera innecesaria, y además pierde por ello la oportunidad de llegar al comedero a tiempo para comer. La paloma picotea el EC y pierde la oportunidad de llegar al comedero a tiempo. Para que haya seguimiento del signo (automoldeamiento), el EC ha de ser fácilmente identificable y estar muy localizado (el animal tiene que saber a dónde dirigirse).

AVERSION AL SABOR

Sucede con muy pocos ensayos de entrenamiento (¡o incluso con un solo ensayo!). Sucede aunque pase bastante tiempo (unas cuantas horas) entre el EC (sabor) y el EI (malestar). Sucede aunque la persona sepa racionalmente que no hay relación entre la comida y el malestar (es un condicionamiento que ocurre de forma irracional).

1. La rata puede escoger libremente entre beber agua pura y agua con sabor dulce. Observamos que pasa más tiempo bebiendo el agua dulce. La rata prefiere el agua dulce al agua pura. 2. Comenzamos el entrenamiento con el Grupo Experimental. Dejamos que la rata beba agua con sabor dulce (EC). 3. Después de haber bebido agua dulce (EC), le inyectamos una solución de LiCl (Cloruro de Litio) que le provoca un malestar gástrico inofensivo (EI). 4. Mientras tanto, en el Grupo de Control, después de beber agua con sabor dulce, a la rata se le inyecta suero salino, que no tiene ninguna consecuencia orgánica (No hay EI). La inyección se pone para igualar las condiciones en los dos grupos y que sean comparables. 5. En el momento de la Prueba, las ratas del Grupo de Control siguen prefiriendo beber agua con sabor dulce (rc). Las ratas del Grupo Experimental, en cambio, no se sienten atraídas por este sabor (RC). Han desarrollado una Aversión condicionada al sabor.

Quien ha aprendido más? Cuidado: La aversión es un tipo de supresión. Por lo tanto, mucha RC implica beber poco agua dulce.

Tanto nuestros gustos como nuestras aversiones en materia gastronómica pueden venir dictados por el condicionamiento clásico.


17

¿Por qué es un condicionamiento tan peculiar y diferente de otros? Utilidad adaptativa de la aversión condicionada al sabor. a. Aprendizaje muy rápido: Aparece con muy poco entrenamiento (a veces 1 solo ensayo es suficiente): Medio de defensa natural ante alimentos peligrosos. Más vale envenenarse una sola vez. b. Intervalo largo (varias horas) entre EC y EI: Para que un alimento en mal estado te haga daño, primero tiene que digerirse. c. Sólo funciona con cierto tipo de EC (sabores, a veces olores): Pertinencia EC-EI. Tiene lugar incluso si el animal no enferma hasta varias horas después de la exposición al sabor nuevo. (aprendizaje demorado).

CONDICIONAMIENTO PAVLOVIANO EXCITATORIO:

Son todos los ejemplos vistos hasta ahora. En este caso los organismos aprenden una asociación entre los estímulos condicionado e incondicionado. Como resultado de esta asociación, la presentación del EC activa la actividad conductual y neuronal relacionada con el EI, sin la presentación real del estimulo incondicionado. El estimulo condicionado adquiere la capacidad de activar la conducta relacionada con el EI asociado.

En el condicionamiento Excitatorio, se empareja el EC con el EI, de manera que el EC acaba produciendo una respuesta condicionada. Cada configuración de EC y EI representa un ensayo de condicionamiento. Y en un experimento típico, la repetición de estos constituye una sesión de entrenamiento. El Intervalo entre ensayos es el tiempo que transcurre entre los mismos (obvio). El Intervalo entre estímulos es el tiempo que transcurre entre el EC y el EI en un mismo ensayo. Llamamos contigüidad al grado de coincidencia en el tiempo del EC y el EI. Cuanto más cercanos en el tiempo, más contigüidad. Normalmente, el Intervalo entre estímulos tiene que ser corto (mucha contigüidad), pero hay excepciones: Aversión al sabor.

Distintos tipos de entrenamiento en función del Intervalo entre estímulos:

Condicionamiento de demora (corta)

EC

Intervalo EC-EI

EI

Es el más frecuente. Se demora el comienzo del EI, ligeramente tras el comienzo del EC (menos de un minuto) El EC puede continuar durante el EI o terminar cuando este empieza.


18

Condicionamiento de demora (larga)

EC

Intervalo EC-EI

EI

El comienzo del EI se realiza después de un tiempo más largo, después del comienzo del EC (entre 5 y 10 minutos).

Condicionamiento de huella

EC Intervalo de huella

Intervalo EC-EI

EI

Hay un espacio temporal entre que termina el EC y empieza el EI.

Condicionamiento simultaneo

EC

EI

Ambos estímulos se presentan a la vez.


19

Condicionamiento hacia atrás

EC

EI

El EI ocurre antes del EC.

¿Qué tipo de condicionamiento es mejor? La contigüidad EC-EI es importante, pero es más importante la informatividad: El EC debe dar alguna información relevante para predecir el EI. Por eso, el condicionamiento hacia atrás y el simultáneo, aun teniendo buena contigüidad, pueden no mostrar apenas RC. El mejor entrenamiento suele ser, por lo tanto, el de demora corta. Esto implicaría que no se aprende nada cuando el EC no predice el EI.

Cuidado: Que con determinado entrenamiento no se observe RC no quiere decir que no haya aprendizaje. Según la hipótesis de la codificación temporal, el animal aprende que el EC y el EI van juntos, sea cual sea el intervalo EC-EI. Pero no presenta RC (no hay buena ejecución) a menos que el EC sirva para predecir el EI (o sea, que el EC sea informativo). El entrenamiento simultáneo no permite predecir el EI, por eso no hay RC aunque sí haya aprendido la relación entre EC y EI.

Medidas de la RC

• Medir = Cuantificar. • Hay muchas maneras de cuantificar una RC. • Magnitud = “cantidad de conducta”. Ej.: gotas de saliva, número de pulsaciones de palanca. La supresión de una conducta también es una medida de magnitud porque indica cuánto se reduce la cantidad de la conducta en un momento determinado (al presentar el EC).

Probabilidad de la conducta. Ej.: nº de ensayos en los que aparece una conducta (lo hemos visto en el condicionamiento palpebral).

Latencia = tiempo que tarda en aparecer la conducta (“tiempo de reacción).

Procedimiento de control: En los experimentos, es habitual que haya un grupo de control que se compara con un grupo experimental para evitar explicaciones alternativas. Los dos grupos deben ser idénticos en todo (control de variables extrañas) salvo en una cosa: la que estamos manipulando en el Grupo Experimental. Queremos saber si se ha aprendido la asociación entre el EC y el EI.

Control aleatorio: Se presenta el EC y el EI de forma aleatoria durante el curso de una sesión experimental. El control aleatorio puede ser problemático en el condicionamiento excitatorio ya que se ha demostrado que puede producir condicionamiento excitatorio y enmascarar así los resultados por lo que no es recomendable utilizarlo. Podría darse cierto nivel de condicionamiento fortuito al coincidir por casualidad el EC y el EI. Y lo que queremos es que en el grupo de control no haya condicionamiento.

Control desemparejado explicito: el EC y EI se presentan los suficientemente separados para evitar que se asocien.


20

Pseudocondicionamiento: se obtiene una respuesta ante un estímulo pero se obtendría la misma respuesta ante otros estímulos también, porque lo que ocurre es que la presentación del EI produce una sensibilización que hace responder ante cualquier estímulo.

Los estudios sobre el condicionamiento en los cinco tipos, dio como resultado que es más efectivo cuando el EC es una buena señal de que el EI aparecerá pronto.

Hipótesis de codificación temporal, el sujeto aprende en todos los casos de condicionamiento, pero aprende de una manera diferente. No solo aprende que la aparición de un estimulo va asociado a otro, sino que aprende cuándo aparecerá el otro.

CONDICIONAMIENTO PAVLOVIANO INHIBITORIO

A diferencia del condicionamiento excitatorio, que puede proceder sin condiciones previas especiales, la inhibición condicionada tiene un requisito importante. Para que la ausencia de un EI sea significativa, el EI debe ocurrir periódicamente en la situación. Solo tendrá lugar si hay un contexto excitatorio para el EI en cuestión.

Procedimiento estándar de inhibición condicionada.

Debido a la importancia de un contexto excitatorio en el condicionamiento de inhibición, Pavlov tuvo cuidado de proporcionar dicho contexto en el procedimiento estándar de entrenamiento inhibitorio. El procedimiento requiere dos estímulos condicionados y dos tipos de ensayo de condicionamiento, uno para el condicionamiento excitatorio y otro para el inhibitorio.

1º En el ensayo de condicionamiento excitatorio, se presenta el EI que va anunciado por el EC+. Gracias a los emparejamientos de ambos, el EC+ anuncia el EI y proporciona el contexto excitatorio.

EC+ EI

2º En el ensayo de condicionamiento inhibitorio, se presenta el EC+ seguido del EC-, y no se presenta el EI. El EC- al no emparejarse con el EI, se convierte en un inhibidor condicionado.

EC+ EC- NO EI

En este caso, siempre sabemos cuándo se presenta el EI y cuando no. Se presenta después del EC+ y no se presenta si EC+ va seguido de EC-. Este procedimiento permite predecir cuándo va a aparecer el EI y cuando no, o sea, que permite la codificación temporal de la ausencia del EI.

Contingencia o correlación negativa entre EC y EI.

Se utiliza un único EC- que predice la ausencia de EI. Están negativamente correlacionado. La persona está expuesta a una situación adonde periódicamente y de forma aislada se presenta el EI, solo cuando aparece el EC- no se presenta el EI. El EI es menos probable tras la presentación del EC-, reduce su probabilidad de presentación. El único estimulo condicionado explicito esta negativamente correlacionado con el EI. El contexto excitatorio lo proporciona el entorno, ya que es allí donde habitual y periódicamente se presenta el EI. Esto permite que el EC adquiera propiedades inhibitorias. Tras el EC hay una probabilidad muy pequeña de que aparezca el EI, sin


21

embargo es mucho más probable que aparezca en ausencia del EC. A pesar de esto, el momento en el que va a aparecer el EI es impredecible ya que el EI tiene lugar de forma probabilística.

Medición de la inhibición condicionada.

� Sistema de respuestas bidireccionales: El sistema de respuestas bidireccionales pueden proporcionar evidencia de inhibición condicionada, pero la técnica es limitada. Solo funciona si las respuestas pueden ir en direcciones opuestas. Ej.: En el seguimiento del signo la paloma se acerca a la luz en un contexto excitatorio, o se aleja en un procedimiento de condicionamiento inhibitorio. La inhibición condicionada da lugar a un cambio en la dirección opuesta a la respuesta ex citatoria.

� Prueba del estimulo compuesto o sumacion: Consiste en comprobar si un estímulo inhibidor reduce la respuesta de un EC excitatorio cuando los dos estímulos se presentan en compuesto. Presento el EC inhibidor (A) en compuesto con un EC excitador (B). Si la respuesta desciende con respecto a la que produce el EC excitador en solitario, es que el EC A es un inhibidor de la RC.

La prueba de estímulo compuesto o prueba de sumación fue muy popular en la época de Pavlov y se está convirtiendo en el método más aceptable para la medición de la inhibición condicionada, en los estudios actuales. La prueba de estímulo compuestos compensa las dificultades originadas por una baja línea base presentando un estímulo condicionado excitatorio que provoca la respuesta condicionada. La inhibición condicionada se mide a partir de la reducción o inhibición de esta respuesta condicionada. La prueba requiere observar los efectos de un EC inhibitorio, en compuesto con un EC+ excitatorio. El procedimiento también se puede entender como la observación de la sumación de los efectos del estímulo inhibitorio (EC-) y el estímulo excitatorio (EC+).

Cole, Barnet y Miller (1997) presentaron una demostración de inhibición condicionada utilizando la prueba del estímulo compuesto o sumación. El experimento se realizó usando el procedimiento de supresión de lameteo con ratas de laboratorio. Los sujetos recibieron un condicionamiento inhibitorio en el que la presentación de una luz terminaba siempre con una breve descarga (A+) y la presentación de una clave auditiva (X) que junto con la luz terminaba sin la descarga (AX-), se utilizó el procedimiento estándar de inhibición condicionada. El condicionamiento inhibitorio se realizó en siete sesiones en los que el sujeto recibió un total de 28 ensayos A+ y 56 ensayos AX -. Recibieron también entrenamiento con otro estímulo auditivo (B) en una cámara experimental diferente y este estímulo terminaba con una breve descarga (B+). El objeto de este procedimiento era establecer una excitación condicionada a dos estímulos diferentes, A y B, y una inhibición condicionada al estímulo X.


22

Cole y sus colegas luego se preguntaron si la clave presuntamente inhibitoria X suprimiría la respuesta a los dos estímulos excitatorios Ay B.

2.5

2.0

1.5

1.0

B BX BY A AX

En esta figura se muestra la prueba del estímulo compuesto de la inhibición en un experimento de supresión de lameteo. Los estímulos A y B se condicionaron como estímulos excitatorios mediante la presentación de cada uno de ellos por separado junto con la descarga (A+ y B+). El estímulo X se condicionó como inhibidor presentándolo junto con el estímulo A si la descarga (AX-). El estímulo Y era un estímulo de control que no había intervenido en ningún condicionamiento excitatorio o inhibitorio. A era una luz brillante, B, X e Y eran claves auditivas (un clip, un ruido blanco y un zumbador, contrabalanceados). A y AX se pusieron a prueba en el contexto original del condicionamiento B, BX y BY se pusieron a prueba en un contexto diferente. Se midió el tiempo que los sujetos tardaron en beber agua durante cinco segundos de forma ininterrumpida. Cuando los estímulos A y B se presentaron de forma aislada, las ratas tardaron un tiempo considerable en completar el criterio de cinco segundos de ingestión. Pero cuando los estímulos excitatorios se presentaron junto con el inhibidor condicionado, tardaron menos en completar el criterio de cinco segundos de ingestión. El hecho de presentar el estímulo X con A y B redujo la conducta de supresión de beber que tenía lugar cuando A y B se presentaban por su cuenta.

En otra condición de prueba (que se incluye en la figura 3.12) el estímulo B se puso a prueba junto con otra clave auditiva Y. El estímulo Y no se condicionó previamente como inhibidor y se presentó para asegurarse de que la introducción de un estímulo novedoso junto con el estímulo B no daría lugar a una alteración de la respuesta condicionada de miedo. Pero tal alteración no tuvo lugar con el estímulo Y. Por lo que la inhibición del miedo se limita al estímulo X. X fue capaz de inhibir el miedo condicionado no sólo ante el excitador con el que fue entrenado A sino ante otro excitador B que nunca se presentó junto con X durante el entrenamiento.

T

iem

po

med

io (

segu

nd

os)


23

� La prueba del retraso en la adquisición. Si un estímulo inhibe de forma activa una respuesta particular, entonces debería ser difícil de condicionar ese estímulo para que provoque la conducta. Es decir, la velocidad de la adquisición de una respuesta excitatoria debería disminuir si el EC es un inhibidor condicionado.

Si un estímulo es realmente un inhibidor, entonces al presentarlo en compuesto con un estímulo nuevo e intentar condicionarlo excitatoriamente, la adquisición debería ser más lenta. A y B son excitadores. X es un inhibidor. Y es un estímulo nuevo que no se ha entrenado antes de la prueba.

Intentamos condicionar el estímulo nuevo Y como excitador, emparejándolo con una descarga. En vez de presentar el estímulo Y en solitario, lo presentamos en compuesto con otro estímulo. En el Grupo Exp, ese estímulo es X, que ha recibido previamente entrenamiento inhibitorio. En el Grupo Ctrl, lo presentamos con Z que es un estímulo novedoso sin entrenamiento, igual que Y. ¿Qué grupo aprenderá mejor una relación excitatoria (Y-Descarga) con el estímulo Y? En el Grupo Exp cuesta más aprender una relación excitatoria con un estímulo nuevo (Y) debido a que se presenta con un inhibidor (X). El inhibidor retrasa la adquisición del estímulo con el que se presenta en compuesto.

Por regla general, para demostrar que hemos conseguido condicionamiento inhibitorio, tendremos que pasar las dos pruebas: sumación y retraso en la adquisición. Esto se debe a que el c. inhibitorio es fácilmente confundible con otros fenómenos (de nuevo, todo el juego consiste en neutralizar explicaciones alternativas).

TEMA 4: MECANISMOS CONDICIONAMIENTO CLASICO.

La novedad de los estimulos condicionados e incondicionados.

El efecto conductual de un estimulo, depende de su novedad. Un estimulo familiar (EC o EI) no suscita reacciones tan intensas como uno novedoso.

El efecto de preexposicion al EC o efecto de inhibición latente se da cuando se cuando primeramente de expone al sujeto repetidamente ante el estimulo que

posteriormente sera EC, de forma aislada. Tras esta primera fase de preexposicion, el EC se empareja con el EI, y se hace un seguimiento del proceso de aprendizaje,

verificando asi que la familiarizacion inicial con el estimulo, retrasa el condicionamiento posterior con dicho estimulo. Este fenomeno al igual que el de habituacion, limitan

la cantidad de procesamiento y atencion a los fenomenos que se sabe, carecen de consecuencias. Y sesgan el aprendizaje a favor de los estimulos novedosos. Esto

promueve la selección de estimulos, necesaria para un aprendizaje rapido.

El efecto de preexposcion al EI, es igual que el anterior. Ninguna teoria ha conseguido explicar estos mecanismos, pero se asocian con la interferencia asociativa (la

preexposicion disminuye la capacidad de estos estimulos para participar en nuevas exposiciones), y la interferencia de memoria (la respuesta condicionada se altera debido

a que los participantes recuerdan la fase de preexposicion y la fase posterior, si se redujera este recuerdo se fortaleceria la respuesta condicionada).

Intensidad y saliencia del EC y del EI.

La respuesta condicionada es mas fuerte, cuando se utilizan estimulos condicionados e incondicionados mas intensos.


24

La saliencia se corresponde con la significacion o perceptibilidad. (Es la particularidad de un estímulo que por ser más significativo o llamativo con relación al contexto,

determina una mayor probabilidad de aprendizaje, que depende de las modalidades sensoriales del estímulo; de su función en el contexto; y del estado emocional del

individuo).

El aprendizaje sera mas rapido, cuanto mas saliente sea el estimulo, esto se pude conseguir aumentando su intensidad, o haciendolo mas relevante resepecto a las

necesidades biologicas del organismo. (Ejemplo, se presta mas atencion al sabor de la sal, cuando tenemos un deficit nutricional de sal). Tambien se puede aumentar la

saliencia, haciendo que un estimulo de laboratorio se parezca lo maximo posible al estimulo en condicones naturales. (Ejemplo: condicionamiento sexula en la codorniz)

Relevancia o pertinencia EC-EI.

El aprendizaje depende de la relevancia o adecuacion del EC con respecto al EI que se le administraba. Ejemplo ratas: el sabor se asocia mas facilmente a un malestar y las

claves audiovisuales a un dolor periferico. Ejemplo palomas: las claves visuales son relevantes con la comida, ylas claves auditivas con la conducta defensiva. Esto nos indica

que hay un predisposición genética para la asociación selectiva de ciertas combinaciones de estimulos.

Fuerza biológica.

La respuesta ante el EC no es tan intensa como la respuesta ante el EI. Ejemplo: tono elicita orientación, comida elicita aproximación, ingestión, salivación, masticación, etc.

Pavlov sugirió que para que un estimulo se condicionara debía tener una fuerza biológica menor que la del estimulo incondicionado con el que se empareja. Las respuestas

que debía elicitar el EC debían ser menor y mas débiles que las del EI. Por definición un EC es un estímulo biológicamente débil que no provoca mucha respuesta y un EI es

un estímulo biológicamente fuerte que provoca una gran respuesta por sí mismo.

� Condicionamiento de orden superior: una implicación del concepto de fuerza biológica, es que un estimulo puede ser EI, tras haber sido fuertemente

condicionado. Ejemplo: comida-tono-salivacion. Después de repetidos emparejamientos, el tono elicitara fuertes respuestas de salivación, aproximación y

orientación. Este seria el emparejamiento de primer orden. Posteriormente se emparejaría el tono con la luz: tono-luz-salivacion, y este seria el

emparejamiento de segundo orden. (1ºEC1 + EI= RC Y 2º EC2+EC1 = RC). El condicionamiento de orden superior funciona igual que la inhibicion condicionada.

En ambos casos, se presenta primero un EC emparejado a un EI, y posteriormente un segundo EC se empareja con el primer EC sin el EI. En algunos casos esto

provoca inhibición condicionada y en otros, condicionamiento de orden superior. Esto se debe al numero de ensayos no EI. Si son pocos ensayos, provoca

condicionamiento excitatorio de segundo orden, pero con un entrenamiento mas intenso, de desarrollara la inhibición condiconada.

� Contracondiconamiento: es un ejemplo de aprendizaje que no se adapta al criterio de fuerza biológica, ya que en este caso dos estimulos pueden quedar

asociados aunque eliciten respuestas igual de intensas. La respuesta que da un animal a un EC, se invierte cuando emparejamos ese estimulo con un EI que

EC 1 EI

RC

EC 2 EC1

RC


25

provoca reacción opuesta. Ejemplo: propiedades aversivas que provoca una descarga, se reducen al emparejarla con comida. Es un procedimiento que reduce

las propiedades aversivas de un estimulo, al emparejarlo con otro, que provoca reacciones opuestas.

� Precondicionamiento sensorial: es una asociación entre dos estimulos que antes del emparejamiento elicitaban una débil respuesta. Primero se emparejan

dos EC (vainilla y canela) sin ningún EI presente. Luego se empareja EC1 con EI (malestar gástrico), que provocan la RC. En una sesión de prueba posterior se

encuentra que el EC2 tambien provoca la RC, a pesar de que nunca se ha emparejado con el EI.

NATURALEZA DE LA RESPUESTA CONDICONADA

Modelo de sustitución del estimulo

Este modelo desarrollado por Pavlov, es la primera y mas duradera explicación acerca de la naturaleza de la respuesta condicionada.

Sugiere que el condiconamiento da lugar al establecimiento de nuevos enlaces neuronales. En el curso de los emparejamientos repetidos de los EC y EI, se desarrolla una

nueva conexión entre los circuitos que previamente activaba el EI. Una vez que esta nueva conexión se ha establecido, la presentación del EC da lugar a la activación de los

circuitos del EI, que a su vez genera la RI. El condicionamiento permite al EC elicitar RI. El EC se convierte en sustituto del EI. El EC adquiere la capacidad de funcionar de

forma similar a como lo hacia el EI. El EC activa circuitos neuronales que previamente activaba solo el EI.

Estimulos incondicionados diferentes elicitan respuestas condicionadas diferentes. El estimulo condicionado convierte al EC en sustituo del EI, por esto, los ECs

condicionados con diferentes EIs provocan respuestas condicionadas diferentes. Los animales aprenden salivar cuando se los condiciona con comida, y a parapadear

cuando se los condiciona con un soplo de aire.

Aprendizaje y homeostasis, caso especial de sustitucion del estimulo.

Para que funcione la homeostasis, es necesario que cualquier amenaza al nivel homeostático, ponga en marcha una reacción compensatoria que neutralice la alteración. El

sistema opera mediante el bucle de retroalimentación negativa. Por ejemplo, se detecta la disminución de la temperatura corporal, y ese estimulo activa la respuesta

compensatoria.

EC 2 EC1 EC1 EI

RC

EC2

RC


26

Según Cannon, los procesos de retroalimentación negativa contrarestaban las alteraciones una vez que éstas ya se habían producido y habían desviado el nivel

homeostático. Esto es ineficiente, sobre todo en el caso de que el proceso de compensación tarda en activarse. Dworkin señalo años mas tarde, que las alteraciones en

homeostasis puden compensarse mas efectivamente si pueden anticiparse. Y el condicionamiento pavloviano proporciona estos medios.

La primera vez que se ingiere una droga se obtiene una RI que consiste en ajustes compensatorios incondicionados. La administración de la droga queda asociada a los

estímulos que acompañan como pueden ser el lugar donde se consume o la preparación de la jeringuilla. Estos estímulos se convierten, por tanto, en EC que por su

asociación con el EI son capaces de generar una RC que consiste también en ajuste compensatorios. Por tanto, cuando el sujeto recibe el EC pone en marcha la RC

compensatoria y el efecto que va a percibir ante el EI será menor que la primera vez por el efecto de dicha RC compensatoria. Por esto es necesario aumentar el EI para que

el sujeto perciba un efecto de igual intensidad que en la primera aplicación de la droga. (respuesta profesor)

Apuntes alumno

Como hablábamos en temas anteriores, homeostasis = equilibrio.

La homeostasis se refiere a los mecanismos fisiológicos que mantiene los aspectos críticos del cuerpo dentro de los límites aceptables. Cualquier amenaza a nivel

homeostático pone en marcha una reacción compensatoria que neutraliza la alteración. Esta reacción funciona por procesos de retroalimentación negativa (Walter

Cannon). La exposición al frío produce escalofríos para incrementar la temperatura del cuerpo. Dworkin señaló que las alteraciones en la homeostasis pueden compensarse

más

efectivamente si pueden anticiparse. Si los sujetos pueden aprender qué claves señalan cuándo van a tener frío, pueden realizar ajustes compensatorios que se anticipen al

frío. Esto recibe el nombre de respuesta homeostática condicionada. (a continuación vamos a relacionar este tipo de respuestas con la administración de drogas psicoactivas

en sujetos. Las drogas suelen provocar alteraciones fisiológicas de la homeostasis que activan reacciones compensatorias condicionadas. Las claves que se asocian a esta

alteración pueden elicitar estas reacciones compensatorias como respuestas condicionadas anticipatorias.

A) Proceso normal=Drogas - Alteración homeostasis – reacciones compensatorias condicionadas

Tomo la droga, me altera la homeostasis y eso provoca una reacción compensatoria condicionada.

B) Proceso en el que pienso en la droga pero no la tomo = Claves de droga (drogasalteración homeostasis) – reacciones compensatorias condicionadas – respuestas

condicionadas anticipatorias.

Pienso en que es un buen momento para tomar la droga pero aún no la tomo. El hecho de pensar lo relaciono directamente con su efecto y con el contraefecto que da mi

cuerpo y se produce la reacción compensatoria condicionada y por lo tanto la respuesta condicionada anticipatoria. La ansiedad por consumir droga que suelen mostrar los

consumidores habituales es una manifestación de estas respuestas condicionadas anticipatorias.

En un experimento con consumidores habituales de cocaína y no consumidores, les presentaban imágenes relacionadas con el consumo de cocaína e imágenes sin relación

con la droga. Al grupo de consumidores les aumentaba el ritmo cardiaco con las imágenes relacionadas con el consumo.


27

El modelo de condicionamiento de tolerancia a las drogas Siempre se ha considerado que la tolerancia a las drogas se debía a procesos farmacológicos, sin embargo

Shepard Siegel encuentra otra explicación basada en el condicionamiento clásico… La explicación se basa en el concepto de homeostasis aprendida.

Tomamos droga y se producen unos cambios fisiológicos en nuestro organismo (son el EI).

Entonces se ponen en marcha unos ajustes para compensar esos cambios, son la respuesta incondicionada (RI).

Entonces…

Mediante el condicionamiento pavloviano o clásico, los estímulos que acompañan a la administración de droga se asocian con el EI. Estos estímulos condicionados pueden

ser la hora del día, o el lugar donde se consume droga habitualmente.

Por lo tanto

- Droga provoca EI

- EI provoca RI

- EI siempre va con EC (lugar y hora)

-EC provoca RI (es decir, el lugar y la hora provocan mi respuesta fisiológica para compensar los cambios que me producirá la droga, por lo tanto tomar droga en sitios

habituales me “colocará” menos).

La primera vez que se ingiere una droga se obtiene una RI que consiste en ajustes compensatorios incondicionados. La administración de la droga queda asociada a los

estímulos que acompañan como pueden ser el lugar donde se consume o la preparación de la jeringuilla. Estos estímulos se convierten, por tanto, en EC que por su

asociación con el EI son capaces de generar una RC que consiste también en ajuste compensatorios. Por tanto, cuando el sujeto recibe el EC pone en marcha la RC

compensatoria y el efecto que va a percibir ante el EI será menor que la primera vez por el efecto de dicha RC compensatoria. Por esto es necesario aumentar el EI para que

el sujeto perciba un efecto de igual intensidad que en la primera aplicación de la droga.

El EC como determinante de la forma de la RC

La forma de la RC esta condicionada tanto por el EI como por el EC. Esto ha quedado demostrado en el experimento con ratas y comida. A una rata A se le presentaba otra

rata B atada que actuaba como EC, 10 segundos antes de presentarle la comida. A fuerza de presentarle la rata B (EC) antes de la comida (EI) se quería observar si la

respuesta normal que daría la rata A ante la comida (morder, roer) comenzaría a darla con la sola visión de la otra rata. Sin embargo esto no fue así, sino que la rata A

mostraba actitudes sociales ante la rata B. Por lo tanto estas actitudes sociales estaban sin duda determinadas por la naturaleza del EC (la rata B).

Conducta condicionada y sistemas de conducta

La teoría de los sistemas de conducta asume que la presentación de un EI en un procedimiento de condicionamiento pavloviano, activa el sistema de conducta relevante

para ese EI. (Un EI sexual, activara el sistema de conducta sexual). Cuando un EC se condiciona con un EI, se integra en un sistema de conducta y adquiere la capacidad de

elicitar respuestas que forman parte de ese sistema. La forma de la RC dependerá del intervalo EC-EI que se utilice. Ya que esto determina el lugar en el que se incorporara

el EC dentro de la secuencia de respuestas del sistema de conducta. Ejemplo: conducta sexual codorniz.


28

CONDUCTA DE BUSQUEDA GENERAL CONDUCTA BUSQUEDA FOCALIZADA CONDUCTA CONSUMATORIA/ COPULA

EC EI

EC EI

Según esta teoría el EC no sustituye ni compensa al EI. En lugar de eso, sustituye a un estimulo en un punto del sistema de conducta, y éste estará determinado por el

intervalo EC-EI. Ciertos tipos de estimulos son mas efectivos a la hora de elicitar un componente particular del sistema de conducta, por esto la naturaleza del EC,

determinara como se incorpora el EC al sistema de conducta.

Aprendizaje E-R frente a aprendizaje E-E

Aprendizaje E-R: Este aprendizaje establece una nueva conexión Entre el EC y la RC.

Aprendizaje E-E: Es una visión más moderna, en la que los individuos aprenden una asociación entre el EC y el EI. Los sujetos responden al EC, no porque éste elicite

directamente la RC sino porque el EC hace que el sujeto piense en EI.

¿Cómo pueden los investigadores decidir entre estas dos interpretaciones? Mediante la técnica de la devaluación del EI, que consiste en la reducción del atractivo de un

estímulo incondicionado, normalmente obtenida mediante la aversión o la saciedad. Ejemplo: pag. 108.

COMO SE ASOCIAN ESTIMULO CONDICIONADO E INCONDICIONADO.

Efecto de bloqueo

Consiste en asociar primero, un estimulo condicionado A con el EI. Una vez que el ECa esta bien condicionado se añade un segundo estimulo condicionado B al estimulo A y

se presentan juntos. El condicionamiento previo con A, interfiere o bloquea el desarrollo de la respuesta condicionada al estimulo B. este fenómeno puso en duda, el

presupuesto desde tiempos antiguos de que la contigüidad temaporal era suficiente para el aprendizaje. Ya que muestra claramente que esto no es suficiente. Kamin,

descubridor del efecto de bloque, explica que para que se produzca aprendizaje de forma efectiva, el EI debe ser sorprendente. Si el EI va señalado por el estimulo A no

sorprenderá al sujeto y por tanto, no funcionara bien a la hora de condicionar al estimulo B, o sea, que no estimula el trabajo mental del animal necesario para la formación

de la asociación. Los eventos inesperados son aquellos a los que el organismo todavía no se ha adaptado y activan los procesos necesarios para el aprendizaje. Para ser

efectivo, un EI debe ser inesperado o sorprendente.

Modelo de Rascorla y Wagner

Explicación: según la contigüidad, cuanto mas juntos en el tiempo se encuentren el EC y EI, mayor aprendizaje. Sin embargo, algunos fenómenos de psicología del

aprendizaje no pueden explicarse recurriendo únicamente a la contigüidad EC-EI. Ejemplo: El Bloqueo. La contigüidad entre B y el EI es la misma en el grupo Experimental


29

que en el grupo de Control. Sin embargo, parece que se aprende más sobre B en el grupo de Control. Porque hay algo más que la contigüidad... El modelo de Rescorla y

Wagner se propuso para explicar efectos como el del Bloqueo, donde la contigüidad no basta para explicar el resultado. Por otro lado, este modelo es también capaz de

explicar muchas otras cosas, y además ha hecho predicciones inesperadas que más tarde se han comprobado. De hecho sigue siendo uno de los modelos más influyentes

en la psicología del aprendizaje.

Está basado en la idea de sorpresa. El animal aprende sobre un EC cuando el EI es inesperado. Según R&W, los animales aprenden para poder predecir los EIs (esta es una

capacidad tremendamente útil para la supervivencia). Cuando el EI aparece de manera inesperada, el animal se fija en los ECs que lo preceden para poder llegar a

adelantarse y predecir el EI. Una vez que ha aprendido a predecir el EI gracias a la presentación de un EC, el EI no es inesperado, así que no necesita aprender a predecirlo

con un EC diferente (esto es el efecto de bloqueo).

Fuerza asociativa: V

La fuerza asociativa (V) también se puede entender como el valor esperado del EI, ya que: la RC será más fuerte si el animal espera que vaya a aparecer el EI,...y más débil si

el animal cree que no va a aparecer el EI. Si un EC es un buen predictor del EI, entonces el EI es esperado, y por eso la fuerza asociativa es grande y la RC también. Si el EI es

inesperado porque el EC no lo puede predecir, la fuerza asociativa de ese EC con ese EI es pequeña y no hay RC (no se espera el EI).Cuanto más sorprenda un EI que

aparezca después del EC, menos fuerza asociativa tiene ese EC con ese EI (porque si nos sorprende, es que esperábamos que no iba a aparecer el EI).

Más entrenamiento EC-EI

Más fuerza asociativa EC-EI

Si se presenta el EC, la predicción es: EI

Si se presenta el EC y después el EI, el EI no sorprende.

Pero además, la fuerza asociativa es limitada (valores de 0 a 100). Una vez que un EI deja de ser sorprendente porque ya lo predice un EC con un 100% de seguridad (fuerza

asociativa = 100), ya no hay necesidad de seguir aprendiendo, ni siquiera para predecirlo con otro EC. En el modelo de R&W, la motivación para aprender es PREDECIR el EI

(esa es la utilidad del aprendizaje). Cuando ya lo predecimos perfectamente, al 100%, no tenemos necesidad de aprender (ya no hay motivo para aprender, porque ya no

tiene utilidad hacerlo).

Formulación matemática del modelo de R&W: La fuerza asociativa entre un EC y un EI va cambiando ensayo a ensayo. Esto es, lo que al principio nos sorprendía (el EI es

inesperado) poco a poco vamos aprendiendo a predecirlo, y nos sorprende menos, con cada emparejamiento EC-EI. Lo que calcula la fórmula es el incremento de la fuerza

asociativa del EC en un ensayo determinado (en la adquisición EC->EI, es el descenso de la sorpresa que produce el EI conforme se aprende que EC lo puede predecir).

ΔV = k (λ-V)


30

El parámetro λ es la magnitud de un EI en un ensayo determinado. Normalmente, si el EI está presente en un ensayo, se le da un valor de 100 (el máximo), y si no está

presente, de 0 (el mínimo).

V es la magnitud del EI que se esperaba.

Vamos a fijarnos en esta parte de la fórmula: (λ-V). En realidad, estamos viendo cómo cambia la sorpresa que produce el EI. La sorpresa que produce cualquier evento

puede definirse como la diferencia entre lo que ha pasado realmente y lo que yo esperaba que sucediera. Eso es exactamente lo que calcula esta parte de la fórmula. Por lo

tanto, (λ-V) = Sorpresa que produce el EI en un ensayo.

Si yo no me esperaba un regalo de cumpleaños (el regalo es el EI), la magnitud del EI esperada (V) es 0.Si me regalan algo por mi cumpleaños, el EI está presente, luego λ

vale el máximo, 100. Mi nivel de sorpresa será(λ-V), es decir, (100-0)=100. La sorpresa es máxima. Siempre que (λ-V)>0, podemos decir que el EI en ese ensayo resulta

sorprendente, inesperado, y eso quiere decir que el animal va a aprender a predecirlo mediante los ECs que lo preceden.

Pero el modelo de R&W contiene más elementos además de la sorpresa que produce el EI en un ensayo.

ΔV = k (λ-V)

El parámetro k corresponde al poder asociativo que tienen el EC y el EI, a su saliencia. Hay estímulos que se asocian muy bien y otros no tanto. Por ejemplo, una luz potente

y con un color bien reconocible es un estímulo fácil de asociar con el EI (es saliente). Una luz muy poco potente, casi imperceptible, es difícil de asociar con el EI (es poco

saliente).A los EI les sucede lo mismo: algunos son salientes, fácilmente asociables con el EC, otros no. No es sólo una cuestión de las características físicas del estímulo.

También influye su naturaleza (si el EC es un sonido, se asocia muy bien con un EI que sea una descarga, pero muy mal con un EI que sea, por ejemplo, un sabor).Influye

también la presencia de otros estímulos en el contexto. Un estímulo fácilmente condicionable puede empeorar su rendimiento si está rodeado de otros estímulos también

fácilmente condicionables. Por ejemplo, un sonido fuerte puede ser un buen EC, pero si se presenta en un ambiente ruidoso es difícil aprender sobre él.

En el manual de Domjan, se utiliza el parámetro k para representar la saliencia del EC y del EI a la vez. En otros manuales se utilizan en su lugar dos parámetros, α(salienciadel EC) y β(salienciadel EI), para representarlos de manera separada, pero el resultado es el mismo (k= αβ). Adquisición EC-EI: Ahora vamos a aprender a computar cómo cambia la fuerza asociativa del EC con el entrenamiento EC��EI. ΔV = k (λ-V) ΔV es el incremento en la fuerza asociativa del EC en ese ensayo.


31

Vamos a calcular ese incremento, es decir, vamos a ver cómo se va aprendiendo la relación EC-EI ensayo a ensayo. Imaginamos que la saliencia del EC (α) es 0,5.La saliencia del EI (β) es 0,8.Por lo tanto, k = 0,5 x 0,8 = 0,4. Ahora emparejamos muchas veces el EC y el EI. Suponemos que cada vez el EI va a ser menos sorprendente porque el EC lo va a predecir muy bien (cada vez que aparece el EC, le sigue el EI). En el Ensayo nº1: EC�EI. Antes de empezar el entrenamiento, el EI es totalmente inesperado. Por eso en el primer ensayo no podemos predecir el EI gracias al EC. La fuerza asociativa del EC en ese primer ensayo es 0. V=0. El EI está presente, por lo tanto, λ=100. Como el EI es impredecible todavía, es inesperado. La sorpresa es grande: (λ-V) = 100.ΔV = k (λ-V) = 0,4 (100-0) = 40. Esto quiere decir que en este primer ensayo la fuerza asociativa del EC (V) aumenta en 40 puntos. Sumamos esos 40 puntos a la fuerza asociativa que tenía antes del primer ensayo, que era:

V = 0. V + ΔV = 0 + 40 = 40. Por lo tanto, después del primer ensayo la fuerza asociativa del EC vale 40. Después del primer emparejamiento, el EI es predecible con el EC en un 40%. En el Ensayo nº2: EC�EI. El parámetro λ vale 100 porque el EI está presente. La fuerza asociativa del EC (V) vale 40. Es el valor que tenía en el ensayo anterior. ΔV = k (λ-V) = 0,4 (100-40) = 0,4 x 60 = 24. Ahora el incremento en la fuerza asociativa del EC es un poco menor que antes. Sólo sube 24 puntos, y por eso se queda en: V + ΔV = 40+24=64. Con cada emparejamiento EC-EI, el EC es mejor predictor del EI, y el EI es menos sorprendente (ahora podemos predecirlo a un 64%). Pero a medida que el EI se vuelve menos inesperado y sorprendente, se aprende menos sobre el EC. En el Ensayo nº3: EC�EI. El parámetro λ vale 100 porque el EI está presente. La fuerza asociativa del EC (V) vale 64. Es el valor que tenía en el ensayo anterior. ΔV = k (λ-V) = 0,4 (100-64) = 14,4. Ahora el incremento en la fuerza asociativa del EC es de 14,4. Asíque ahora la fuerza asociativa se queda en: V + ΔV = 64+14,4=78,4.


32

Extinción de la asociación EC-EI: Aplicamos el modelo de R&W para explicar la extinción. Partimos de un momento en el que el EC predice al 100% el EI porque hemos entrenado con emparejamientos EC�EI. Al principio, la V vale 100.Ahora empezamos con el entrenamiento de extinción: Ensayos en los que sólo presentamos el EC, sin el EI. Por eso, en estos ensayos λ=0. Ensayo 1 de Extinción: V=100, porque partimos de un EC ya entrenado con el EI. Esperamos que, una vez presentado el EC, aparezca el EI. Mantenemos el mismo valor de k que en el ejemplo de adquisición, k=0,4. Como no se presenta el EI, λ=0. La sorpresa es máxima:

(λ-V) = (0-100) = -100.ΔV = k (λ-V) = 0,4 (0-100) = -40. La fuerza asociativa desciende 40 puntos en el Ensayo 1 de extinción: por lo tanto, se queda en 100-40 = 60. El EI ya no es tan precedible como antes de que empezara la extinción. Ensayo 2 de Extinción: La fuerza asociativa (V) en este ensayo vale 60. Veamos cuánto cambia. Como todavía es un valor alto, el animal pretende predecir el EI con el EC. Como no se presenta el EI, λ=0.ΔV = k (λ-V) = 0,4 (0-60) = -24. La fuerza asociativa desciende 24 puntos en el Ensayo 2 de extinción: por lo tanto, se queda en 60-24 = 36. La fuerza asociativa va descendiendo y la curva de extinción toma la siguiente forma: Al principio, el que no aparezca el EI siguiendo al EC supone un cambio inesperado y por eso la V desciende mucho. Después el animal aprende a no esperar que el EI aparezca después del EC. La no-presencia del EI siguiendo al EC deja de ser sorprendente.

Explicacion del bloqueo

En el bloqueo, tenemos en el grupo Experimental una fase 1 en la que se presenta el EC seguido del EI. Por lo tanto, al final de ese entrenamiento de la fase 1, en el grupo experimental tenemos que la VA= 100. A es un buen predictor del EI, que ha dejado de ser inesperado (lo predecimos con A). En la Fase 2, tenemos un estímulo compuesto AB en los dos grupos (Experimental y Control), seguido del EI. El EI podría predecirse utilizando tanto A como B. Por eso la sorpresa que produce el EI se calcula así:


33

(λ-V) = [λ–(VA+VB)] Esto sucede siempre que hay dos ECs en un mismo ensayo. La magnitud del EI que espera el animal depende de ambos ECsA y B. Cuando empiezan los ensayos AB�EI, aún no se sabe nada sobre B. De modo que VB=0. Pero sí tenemos entrenamiento previo con A, VA=100. Como el EI está presente, λ=100. Así que la fuerza asociativa en ese ensayo: ΔV = k [λ–(VA+VB)] = 0,4 [100-(100+0)]= 0. La fuerza asociativa no crece en estos ensayos porque ya estaba al máximo gracias al entrenamiento previo con A. A predecía perfectamente el EI (al 100%), así que no necesitamos a B para predecir el EI. Problemas del modelo de R&W:¿Extinción = Desaprendizaje? En el modelo de R&W, la extinción implica que se desaprende la relación predictivaentre EC y EI. Hoy sabemos que esto no es así, porque existen fenómenos en la extinción que muestran que la información no se “borra”de la memoria, sino que más bien no se expresa. Ejemplo: Recuperación espontánea. Basta con que pase algún tiempo sin entrenamiento desde que se extinguió una asociación EC-EI para que la RC vuelva a aparecer al presentarse el EC. Eso demuestra que la información que se aprendió en la adquisición sigue ahí. Actualmente se piensa que durante la extinción se aprende una información distinta, contradictoria con la de la adquisición, permaneciendo ésta intacta. A veces no se muestra bloqueo El modelo tampoco explica por qué a veces no se muestra bloqueo aunque se exponga a los sujetos al entrenamiento A->EI; AB->EI.

Pérdida del valor asociativo a pesar de los emparejamientos con el EI

El modelo Rescola-Wagner predice que los estímulos perderán valor asociativo si se presentan juntos en un ensayo de condicionamiento después de haber sido entrenados

por separado.

Fase 1

- Asociamos el estímulo A con una bolita de comida (EI)

- Paralelamente asociamos el estímulo B con la misma bolita de comida (EI)

Ambos estímulos se han condicionado perfectamente, de manera que predicen perfectamente el EI de una bolita de comida, es decir, VA = VB = λ

Fase 2

- Presentamos ambos estímulos conjuntos (A y B) con la bolita de comida (EI). Al no haber cambios en el EI, las propiedades de A y B adquiridas en la fase 1 deberían

mantenerse, y sin embargo el modelo predice que se van a reducir. ¿porqué sucede esto?

Porque la expectativa basada en los estímulos individuales son 2 bolitas de comida y sin embargo se le presenta 1 única bolita. Por lo tanto existe una discrepancia entre lo

que se espera (2 bolitas) y lo que se presenta (1 bolita). Los participantes encuentran que el EI es


34

sorprendentemente pequeño, por lo tanto para ajustar la expectativa a lo que realmente ocurre, A y B perderán valor.

Inhibición condicionada:

Tenemos dos tios de ensayos: reforazados y no reforzados. En los ensayos reforzados se presenta el EC+ seguido del EI. Si aplicamos Rescorla y Wagner, veremos como el EI

va siendo mejor predicho por el EC+ ensayo a ensayo, por tanto el sujeto espera recibir el EI cuando aparece el EC+. Por eso en los ensayos no reforzados cuando se le

presenta al sujeto el EC+ y el EC- a la vez, el sujeto espera la aparición del EI pero al no aparecer el EC- adquiere fuerza asociativa inhibitoria para compensar la expectativa

del EI producida por el EC+.

Efecto bloqueo

El diseño del bloqueo es el siguiente:

Fase 1 Fase 2 Prueba

G. Exp. A-EI AB-EI B

G. Ctrl. A/EI AB-EI B

Según Rescorla y Wagner durante la Fase 1 A adquiere toda la fuerza asociativa disponible por lo que VA= lambda (lambda es la cantidad de aprendizaje que permite el EI). Cuando en la Fase 2 se presenta AB juntos no queda fuerza asociativa disponible en el EI para que se asocie a B ya que el EI es totalmente predicho por A, por lo que VB = k(lambda- VA+B) y como VA= lambda, el resultado es 0.

(PENDIENTE TERMINAR)

TEMA 5: CONDICIONAMIENTO INSTRUMENTAL, FUNDAMENTOS.

En el condicionamiento clásico vimos que el organismo no tiene control sobre los estimulos a los que se expone, en cambio en el condicionamiento instrumental, los

estimulos a los que se enfrenta el organismo, son resultado directo de su conducta, es la llamada conducta dirigida a metas.

La conducta sucede debido a que ha servido previamente como instrumento para producir ciertas consecuencias, es una conducta instrumental.


35

El análisis teoríco y experimental comenzó con Thorndike quien formulo la ley de efecto que establece que si una respuesta en presencia de un estimulo es seguida por un

suceso satisfactorio, la asociación entre estimulo y respuesta se fortalece. En cambio si es seguida por un suceso molesto la asociación E-R se debilita. De acuerdo con esta

ley, los animales aprenden una asociación entre la respuesta y los estimulos presentes cuando se ejecuta la respuesta. Y la consecuencia de la respuesta no es un elemento

de la asociación, sino que sirve para fortalecer o debilitar la asociación. Por esto, esta ley implica un aprendizaje E-R.

Procedimiento de ensayo discreto: en cada ensayo de entrenamiento se acaba con la retirada del animal del aparato y la respuesta instrumental se realiza solo una vez

durante cada ensayo. El experimentador decide cuándo puede responder el animal.Se utilizan laberintos, tipo T con una caja de salida y dos cajas de meta (se estudia la

conducta de elección) o tipo laberinto recto con una caja de salida . La conducta puede cuantificarse midiendo la velocidad de la carrera, que va en aumento a medida que

se repiten los ensayos. También se pude medir la conducta a través de la latencia (tiempo que tarda el animal en abandonar la caja de salida) las cuales se hacen mas cortas

a medida que progresa el entrenamiento.

Procedimiento de operante libre: el animal es retirado del laberinto y se vuelve a colocar en la caja de salida para el próximo entrenamiento. Esto permite al animal repetir

la conducta instrumental una y otra vez sin restricciones. Skinner ideo una cajas para estudiar la conducta de una manera mas continua que en el laberinto. El animal

decide cuándo responde, y puede hacerlo una y otra vez. Antes de analizar la conducta, tuvo que establecer una unidad de medida, y teniendo en cuenta que la no se

divide en unidades sino que es un continuo, propuso en concepto de operante. Cada operante es una unidad de respuesta que produce un efecto en el ambiente, que hace

que la respuesta aparezca con más o con menos frecuencia en el futuro. En el caso de presionar una palanca, el elemento fundamental no son los musculos, da igual si lo

hace con una pata o con la otra, lo importante es la forma en que la conducta “opera” en el ambiente. Las diversas formas de presionar la palanca, son funcionalmente

equivalentes, porque todas tienen el mismo efecto en el ambiente (cerrar el microinterruptor).

Entrenamiento y moldeamiento al comedero: es el reforzamiento de conductas cada vez más parecidas a la conducta meta. Cada conducta reforzada se hace más

probable. Se trabaja por fases. No es habitual que la rata presione la palanca con frecuencia. Hay que entrenarla comenzando con un condicionamiento clásico de

seguimiento del signo llamado entrenamiento al comedero (se empareja sonido con bolita de comida, lo que hace que la rata se dirija al comedero y recoja la bolita. Una

vez hecho esto el organismo esta preparado para aprender la respuesta instrumental requerida, la cual nunca sucederá por si mismo si no es algo que el animal realizo

anteriormente. Hay que facilitar la adquisición de esta nueva conducta. Primero, se da una bolita cuando la rata se pare sobre sus dos patas traseras, una vez que se

aprende esto la bolita se dara cuando hace esto encima de la palanca. Una vez aprendido esto la bolita se dara solo si al pararse sobre la palanca realmente la presiona. Esta

secuencia de pasos de entrenamiento se llama modeamiento.

Moldeamiento y nueva conducta: el condicionamiento instrumental incluye construcciones de una nueva unidad conductual a partir de componentes de respuestas

preexistentes que ya se encuentran en el repertorio del sujeto (la rata ya sabia aproximarse a un objeto, levantar sus patas, bajarlas, etc).

También puede utilizarse este tipo de condicionamiento para producir respuestas que no se parecen en nada a lo que haría el individuo sin que se haga el entrenamiento.

Entrenarse en un deporte o aprender a tocar un instrumento, son respuestas nuevas creadas por moldeamiento. El moldeamiento aprovecha la variabilidad inherente en la


36

conducta. Sin esto el moldeamiento no tendría éxito. Por ejemplo, apertura de pico de la paloma. El moldeamiento puede producir nuevas formas de respuesta nunca

antes realizadas. (La paloma al principio abria el pico como máximo 10 mm, y a medida que se fue moldeando su conducta hacia un objetivo, llego a abrir el pico hasta 20

mm).

La tasa de respuesta como medida de la conducta operante: los métodos de operante permiten una observación continua de la conducta durante largos periodos, es el

organismo del animal el que determina la frecuencia de sus respuestas. En este caso la unidad de medida propuesta por Skinner fue la tasa de ocurrencia, la frecuencia de

la respuesta por minuto por ejemplo. Es una medida de la probabilidad de respuesta.

PROCEDIMIENTOS DE CONDICIONAMIENTO INSTRUMENTAL.

CONTINGENCIA

POSITIVA NEGATIVA

ESTIMULACION

APETITIVA

AVERSIVA

REFORZAMIENTO

POSITIVO

CASTIGO

ENTRENAMIENTO

DE OMISION

REFORZAMIENTO

NEGATIVO: ESCAPE

o EVITACION


37

REFORZAMIENTO POSITIVO: procedimiento en el que la respuesta intrumental produce un estimulo apetitivo. Existe una contingencia positiva entre respuesta y estimulo.

Esto produce un reforzamiento o aumento en la tasa de respuesta.

CASTIGO: la respuesta produce un estimulo molesto. Esto produce una disminución o supresión en la respuesta intrumental.

Los siguientes casos involucran una contingencia negativa, esto es que la respuesta retira o previene la presentación del suceso ambiental.

REFORZAMIENTO NEGATIVO: se previene un estimulo aversivo. Hay dos tipos: escape, adonde se presenta el estimulo aversivo que puede ser eliminado por la respuesta

instrumental (escapar del sonido molesto de una radio). La presencia del estimulo establece la ocasión para que ocurra la respuesta instrumental. La evitación hace que la

estimulación aversiva no se inicie si se da la conducta (estudio para evitar un suspenso). Al igual que en el reforzamiento positivo, aumenta la tasa de respuesta.

ENTRENAMIENTO POR OMISION: también llamado reforzamiento diferencial de otras conductas o RDO, la respuesta previene la presentación de un estimulo apetitivo. Se

da una contingencia negativa, y provoca una supresión o disminución de la respueta. Método usado para disuadir la conducta humana. No hay estimulo aversivo sino que

se retira la una posible fuente de reforzamiento positivo. Al enviar a un niño a la habitación después de haber hecho algo malo, no hay nada aversivo, pero le retiro la

posibilidad de jugar o ver televisión.

ELEMENTOS FUNDAMENTALES DEL CONDICIONAMIENTO INSTRUMENTAL

1. RESPUESTA INSTRUMENTAL: el resultado de los procedimientos de condicionamiento instrumental, depende en parte del a naturaleza de la respuesta que se este

condiconando. Algunas son mas fácilmente modificables que otras. Thorndike asocio la conducta instrumental a la asociación E-R, y Skinner se refirió a la conducta

como reforzada o fortalecida. Ambos coincidieron en que el reforzamiento incrementa las posibilidades de que la respuesta instrumental se repita en el futuro.

Variabilidad: Normalmente el reforzamiento produce repeticiones de la misma respuesta, respuestas estereotipadas. Pero también puede verse implicado

en respuestas variables. Se puede reforzar la variabilidad, se aumenta la variabilidad de las respuestas mediante reforzamiento, enseñando a obtener el

reforzamiento haciendo algo nuevo, distinto a lo que se hizo en los últimos cuatro o cinco ensayos anteriores. Ejemplo: pictear dos teclas para obtener comida. La

variabilidad de la respuesta puede mantenerse e incrementarse por reforzamiento, y se puede considerar un operante. En ausencia del reforzamiento explicito de

variabilidad la respuesta llega a ser mas estereotipada. O sea, el animal no se preocupa tanto en variar su conducta. Por esto, el resultado típico del reforzamiento

instrumental es una disminución en la variabilidad de la respuesta.

Relevancia o pertinencia: al igual que en condicionamiento clásico, por su naturaleza hay estimulos que se asocian mejor con otros. (Ejemplo sabor-

enfermedad y no sabor-descarga). Debe haber cierta “correspondencia” entre la respuesta y el reforzador. Pero recordemos: El reforzador se define por su efecto

sobre la conducta (decíamos que era una definición “circular”). No sabemos seguro si un estímulo servirá como reforzador de una conducta en concreto. Ha de haber cierta relacion entre la respuesta y el reforzador. Para saber si una conducta es apropiada para reforzar con un determinado reforzador, son utiles los sistemas de conducta. Por ejemplo: Las conductas del sistema de alimentación se refuerzan mejor con comida. Cuando tiene hambre, se activa el sistema de conducta de alimentación (buscar comida). Estas conductas (olfatear, excavar...) forman parte del sistema de alimentación y en esta condición de privación se


38

hacen más frecuentes. Conductas del animal en su estado natural: 20% Erguirse, 20% Limpiarse, 20% Rascarse, 20% Excavar, 20% Olfatear. Conductas del animal con hambre (privado de comida): 30% Erguirse, 2% limpiarse, 3% Rascarse, 30% Excavar, 35% Olfatear. Thorndike propuso el concepto de pertinencia al intentar que un gato rascándose o bostezando consiguiera salir de una caja. Al principio conseguía rascarse y luego solo eran motivimientos frustados. Ciertas respuestas se correspondían de forma natural con el reforzador debido a la historia evolutiva del animal (manipular un picaporte ayuda a escapar, pero bostezar no). La deriva instintiva se refiere a las actividades que un animal por ejemplo al buscar comida. Un cerdo: hozar. Un mapache: frotar y lavar. Es difícil enseñarles una conducta diferente a sus conductas instintivas relacionadas con la comida. Ya que sus respuestas instintivas emergen en el entrenamiento. Es una intrusión de respuestas apropiadas al sistema de conducta activado durante el entrenamiento. Limitaciones: son la consecuencia de los sistemas de conducta. Cuando un animal tiene hambre, se activa su sistema de alimentación y conductas relacionadas con la comida. Debemos poder predecir qué respuestas se incrementaran durante el reforzamiento de comida, estudiando lo que los animales hacen cuando normalmente se activa sus sistema de alimentación.

2. REFORZADOR INSTRUMENTAL: incrementos en la calidad o cantidad del reforzador producen mayores tasas de respuesta, afecta a la cantidad e intensidad de la

respuesta. Los efectos de la cantidad y tipo de reforzador dependen de la cantidad y naturaleza de los reforzadores que el individuo experimento previamente. Una

recompensa desfavorable, se trata como especialmente mala, si viene después de una buena recompensa. El contraste positivo se refiere a una elevada respuesta

por una recompensa favorable, resultado de una experiencia anterior con una consecuencia menos atractiva. Y el contraste negativo es el caso inverso. En el

ejemplo de la variación del tamaño delas bolitas de comida de las ratas, el nivel de respuesta obtenido por las ratas que pasaron de bola pqueño a la grande, fue

mucho mas alto que el nivel de respuesta (la velocidad) de las ratas que siempre obtuvieron la bola grande. Y en el caso negativo, ocurrió lo mismo. Ambos

contrastes se llaman sucesivos porque las condiciones de recompensa tienen lugar en diferentes fases del experimento. Estos efectos ilustran que la efectividad de

un reforzador en una situación determinada depende de la experiencia previa del organismo con el reforzador. Un cambio a peor, primero activa cambios

conductuales y cognitivos, respuestas exploratorias y de búsqueda que conduzcan al encuentro de una mejor fuente de comida. El desencanto emocional llega

cuando ve que tiene que conformarse. En este caso, los efectos emocionales se manifiestan mas tarde que en el contraste positivo.

3. RELACION RESPUESTA-REFORZADOR: la conducta instrumental produce y es controlada por sus consecuencias. En algunos casos hay una fuerte relacion entre lo

que una persona hace y la consecuencia, y en otros, hay una relacion probabilística. Hay dos tipos de relaciones entre respuesta y reforzador: relacion temporal que

se refiere al tiempo que pasa entre la respuesta y el reforzador. Un tipo especial es la contigüidad temporal que se refiere a que el refrozador se da inmediatamente

desupes de la respuesta. Y relacion causal o contingencia respuesta – reforzador se refiere a que la respuesta es necesaria y suficiente para la obtención del

reforzador. Son factores independientes entre si. Por ejemplo hay una relacion causal fuerte entre presentar la solicitud de admisión a la universidad y ser

aceptado, pero no hay una relacion temporal fuerte.

Efectos de la contigüidad temporal: siempre es preferible un reforzamiento inmediato a uno demorado. Dado que la conducta es un flujo continuo de

actividades, si el reforzamiento es demorado, es difícil establecer para el sujeto, a que conducta de todas las que realizo en el ultimo tiempo, se corresponde ese


39

reforzamiento. Para resolver este problema se puede utilizar el un reforzador secundario o condicionado inmediatamente después de la respuesta instrumental. Es

un estimulo condicionado que ha sido previamente asociado al reforzador. Sirven para puentear una demora. Ejemplo: decirle al perro “muy bien” “ eso es”,

palabras que se asociaron previamente al premio después de haber hecho algo bien. Otra opción, es marcar la repuesta instrumental criterio para distinguirla del

resto de actividades. Un estímulo (manipular y mover a la rata) aparece tras las respuestas correctas (que son las que se reforzarán) y tras las incorrectas. Así el

animal sabe qué conducta es la que se va a reforzar (“marca” la respuesta que es importante de cara a obtener el reforzador). Si en el plazo de 60 segundos la rata

es libre de hacer otra cosa, no asocia repuesta con reforzador. Pero la marca, facilita esta asociación aunque el reforzador no sea inmediato. Estos procedimientos

se centran en conectar la respuesta critica con el reforzador demorado.

Reforzamiento demorado independiente de la conducta: en este caso, el animal no identifica cuándo será reforzado. Si una paloma no sabe cuando va a

ser alimentada, ira constantemente a ver el cuenco y esta respuesta de observacion interferirá en la respuesta instrumental critica. Otra consecuencia de esto, es el

condicionamiento de claves contextuales: al ser demorado el reforzador se asocia que este ocurrirá en el contexto experimental sin depender de ninguna respuesta.

Al asociar reforzador con contexto, se bloquea la formación de la asociación entre la respuesta critica y el reforzador.

Contingencia y contigüidad: es igual de importante que se den ambas, para que se produzca aprendizaje instumental en el caso del aprendizaje demorado.

Conducta supersticiosa: en el debate acerca del papel de la contigüidad frente a la contingencia en el aprendizaje instrumental, Skinner realiza su

experimento de superstición. Se le administro comida cada 15 segundos a palomas, que estaban en cámaras separadas, independientemente de lo que estuvieran

haciendo. Un pájaro lo asocio a dar vueltas en la jaula, otro se sacudia, etc. Pensaban que su conducta controlaba la entrega del reforzador. Esto se relaciona con el

aprendizaje adventicio o accidental, que se refiere a un emaparejamiento accidental de una respuesta con la entrega de reforzador. Cualquier respuesta que se

realizara por casualidad justo antes de conseguir comida, se fortalece y posteriormente de incrementa su frecuencia debido al aprendizaje adventicio. Después de

un segundo emparejamiento, y sucesivos emparejamiento, eran ya suficientes para identificarla como conducta supersticiosa. En aquel momento Skinner

interpreto que la contigüidad temporal era el factor mas importante responsable del aprendizaje y que una contingencia positiva no era necesaria.

Reinterpretacion del experimento: Staddon descubrió que las palomas desarrollaban determinadas conductas hacia el final del intervalo (respuestas terminales) y

otras hacia el inicio del intervalo (repuestas de interin). ¿Por qué se desarrollan respuestas terminales y de interin similares en animales expuestos al mismo

experimento de presentación de comida independientemente de la respuesta? Staddon asocio las repuestas terminales a repuestas típicas que reflejan

aproximación de comida a medida que el tiempo se acerca a la próxima presentación , y las repuestas interin las asocio a una manifestación de otras fuentes

motivacionales. Mas tarde se demostró que ambas se consideran diferentes manifestaciones del mismo sistema motivacional. La teoría de los sistemas de conducta

sostiene que hay diferentes conductas dentro del sistema de alimentación dependiendo de cuando se entrego la ultima comida y de cuando va a aparecer la

siguiente. Justo después de comer el organismo desarrolla respuestas de búsqueda focaliza poscomida, luego una búsqueda general, y según se aproxima la

próxima comida, una búsqueda focalizada.

Efectos de la controlabilidad de los reforzadores: la indefensión aprendida se da cuando se produce un estimulo incontrolable, y este dificulta el

aprendizaje posterior. La exposición a estimulación aversiva incontrolable produce inactividad (“como no puedo controlar lo que me pasa, no tiene sentido intentar

cambiarlo”). El diseño tríadico es el utilizado en los experimentos de indefensión aprendida. Consta de dos fases, y se utilizan tres grupos. Los animales del grupo E


40

(descarga escapable) tiene control sobre las consecuencias, es decir, en el momento en que se les da la descraga pueden pasarse al otro lado de la caja para

escaparse. Los animales del grupo A (decarga inescapable) no puede hacer nada para evitar la descarga y las reciben en el mismo momento en que las recibe el

grupo E. Con esto se garantiza que los dos grupos reciban el mismo número de descargas. Finalmente, el grupo C (confinado al aparato) no hace nada, sólamente

permanece en la caja el mismo tiempo que los otros grupos. La primera fase es la exposición al estimulo aversivo y la segunda fase es el condicionamiento:

Escape-evitación. Aquí los animales pueden realizar la conducta de escape o la de evitación. Pueden evitar la descarga si se anticipan a ella (evitación), o escapar de

la misma si ya se ha producido (escape). La exposición a una descarga incontrolable produce una severa interrupción del aprendizaje. Este experimento demuestra

que los animales son sensibles a la contingencia respuesta-reforzador.

Según la hipótesis de la indefensión aprendida, el animal aprende que las descargas ocurren de forma independiente a su conducta. La ausencia de control futura

debilita la habilidad para aprender una nueva respuesta instrumental.

El déficit de aprendizaje se debe a que la falta de control reduce la motivación para realizar una respuesta, y aun actuando y siendo reforzados, la expectativa

aprendida previamente de falta de control hace difícil aprender que ahora esa conducta es efectiva. El efecto de indefensión aprendida es el patrón de resultados

obtenido con el diseño tríadico (aprendizaje mas pobre en A, que en E y C) y la hipótesis es una explicación controvertida de este efecto. El déficit de aprendizaje se

debe a que los animales aprenden a ser inactivos como respuesta a la descarga.

El deficit atencional se debe a que la descarga inescapable provoca que el animal no preste atención a sus acciones. Si no presta atención a su conducta, no podrá

asociar sus acciones a un reforzador. Maier realiza un experimento basándose en que un animal que no atendía a su conducta debido a la descarga inescapable,

tiene el mismo problema que el que recibe reforzamiento demorado. No se da cuenta qué acción produce reforzador. Lo que hizo fue aliviar esa atención reducida,

introduciendo un estimulo de marcado. La presencia de este marcado (apagar la luz e inclinar la caja cuando la rata esta intentando escapar) elimino el déficit de

arpendizaje. Marcar la respuesta instrumental supera el déficit de indefensión aprendida.

Por ultimo, se analizo la relacion estimular en el condicionamiento de escape. Una conducta de escape tiene como resultado claves internas de retroalimentación.

Que son estimulos internos que experimenta el sujeto, como consecuencia de su respuesta. Algunos se experimentan al comienzo de la respuesta de escape, y

otros justo cuando la descarga se retiro. Estos se denominan claves de retroalimentación de la señal de seguridad. Dess sugirió que como estas claves van seguidas

de un intervalo entre ensayos, por tanto, de una ausencia de descarga, llegan a convertirse en inhibidores del miedo y limitan el miedo elicitado por la cámara

experimental. Esto no ocurre en los animales que no pueden escapar. Por eso las claves contextuales de la cámara quedan condicionadas para elicitar el miedo.

Finalmente esta conclusión no fue apoyada.

TEMA 6: PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE ELECCION.

La contingencia perfecta entre la respuesta y el reforzamiento es rara en el mundo real. No siempre que estudiemos muchas horas, sacaremos buena nota en el examen.

Los programas de reforzamiento se utilizan para estudiar en el laboratorio las relaciones complejas que controlan la ocurrencia de respuestas instrumentales.

Un programa de reforzamiento (PR) es un programa que determina cómo y cuándo la ocurrencia de una respuesta irá seguida de un reforzador.


41

La ocurrencia del reforzador podrá depender del numero de respuestas, del paso del tiempo, o de cualquier otra circunstancia. Los PR que incluyen relaciones similares

entre estimulos, respuestas y los reforzadores, normalmente producen patrones similares de conducta. La tasa exacta de respuesta puede diferir de una situación a otra,

pero el patron de resultados es altamente predecible.

Los PR influyen tanto en la forma de aprender una respuesta instrumental como en la forma en que se mantiene por el reforzamiento. Se investiga en cajas de Skinner que

permiten una observación continua de la conducta. Se obtuvo gran cantidad de información sobre los factores que controlan el mantenimiento de la conducta y su

realización continuada, más que su adquisición original. Los PR pueden utilizarse para motivar la conducta de estudio por ejemplo, para que se dé de forma mas frecuente.

Los PR son fundamentales para comprender la conducta instrumental debido a lo que nos dicen sobre el proceso de reforzamiento y a que sirven como base para el estudio

de otros procesos conductuales. Zeiler, los denomino como “el gigante durmiente” del análisis de la conducta.

PROGRAMAS SIMPLES DE REFORZAMIENTO INTERMITENTE

En estos programas un solo factor determina qué ocurrencia de la respuesta instrumental será reforzado.

PROGRAMA DE RAZON

En este caso el reforzamiento depende solamente del número de respuestas que el organismo realiza. Es necesario contabilizar el numero de respuestas, y entregar el

reforzador una vez q se alcance el numero requerido. Si la respuesta se refuerza sólo alguna vez, hablamos de reforzamiento parcial o intermitente.

PROGRAMA DE RAZÓN REFORZAMIENTO INTERMITENTE O PARCIAL RAZON FIJA.

RAZON VARIABLE.

REFORZAMIENTO CONTINUADO (también RF)

Un programa de razón fija (RF) es aquel en el que hay una razón fija entre el numero de respuestas y el numero de reforzadores que consigue. Si se necesitan 10 respuestas

lo denominaremos RF 10. Ejemplo: marcar un numero de teléfono. Se da una tasa constante y alta una vez que se ha iniciado la conducta, pero se puede tardar antes de

comenzar a realizar el numero de respuestas requerido.

Cuando es un RF 1, se denomina reforzamiento continuo, RFC, ya que por cada respuesta se obtiene un reforzador. La persona responde a una tasa constante pero

moderada, con pausas breves e impredecibles. Ejemplo: la paloma que obtiene comida, primero lo hara mas rápido, y luego cuando se sacie lo hara mas lento.


42

Un registro acumulativo es una forma especial de representar la forma de repetirse una respuesta en el tiempo. Muestra el numero total de respuestas ocurrido hasta un

momento determinado en el tiempo. Antes de los ordenadores se hacia en papel, con un registrador que tenia un tambor que hacia girar el papel fuera del registrador a

una velocidad constante, con un pluma apoyada en el papel. Si no había respuestas la pluma estaba quieta dibujando una línea horizontal, si el animal apretaba la palanca,

la pluma se desplazaba hacia arriba una unidad sobre el papel. La distancia vertical representaba el numero acumulado de respuestas, la distancia horizontal, la cantidad

de tiempo transcurrido, y la pendiente de la línea trazada por el registro acumulativo representaba la tasa de respuesta del sujeto.

La pausa post reforzamiento es la tasa cero de respuesta que se observa después de cada reforzamiento. Es el descanso después de obtener el refuerzo. Cuanto mayor sea

el nº de respuestas necesarias para obtener el reforzador, habrá mas probabilidad de que realicemos esta pausa. Y será mayor. Cuando la exigencia es tan alta, que el

animal realiza pausas periodicas después de cada refuerzo, lo llamamos tensión de la razón. La tensión de la razón se refiere al momento en el cuál el requisito del

programa es tan grande que se deja de responder, en ese sentido sería una pausa posreforzamiento muy larga pues no se vuelve a iniciar la carrera de la razón. Si la

exigencia es muy grande, puede que deje de responder. La investigación ha demostrado que la longitud de esta pausa esta controlada por el requerimiento de la razón

subsiguiente. Se relaciona con que aun no se esta lo suficientemente preparado para la siguiente respuesta, y no con que se esta descansando de la ultima vez. Por esto es

mas apropiado llamarla pausa pre-razon.

La tasa de respuesta alta y estable que completa cada requerimiento de la razón se denomina carrera de la razón.

Los incrementos en el requerimiento de la razón provocan que la tasa de respuesta permanezca estable si son pequeños. Cuanto mayores sean requerirán pausas

postreforzamiento, mas largas. Los incrementos no deben ser demasiado rapidos ya que se puede dar la tensión de la razón y el organismo desista.

Un programa de razón variable es aquel en el que se necesita un numero de repuestas distinto para la entrega de la recompensa. El valor numérico del programa se haya

con la media de respuestas requeridas para conseguir el reforzador. Si se requieren 10 repuestas para el primer reforzador, 13 para el segundo y 7 para el tercero, estamos

ante un caso RV 10. En este caso las pausas son menos probables, ya que no se sabe el nº de respuestas necesarias para conseguir el reforzamiento. Si se dan pausas son

mas largas y prominentes que en los programas de RF. Responden a una tasa claramente estable. La tasa de respuestas entre un programa de RF y uno de RV serán

similares si en promedio se requieren numeros de respuestas similares. El patrón en RF es pausa-carrera y en un RV es un patrón estable.

PROGRAMAS DE INTERVALO

El reforzamiento depende del tiempo transcurrido desde la ultima entrega del reforzador, no del numero de respuestas. En un programa de intervalo fijo (IF) el tiempo

establecido no varia de una ocasión a la siguiente. Debido a que los picotazos realizados antes del tiempo establecido, no se refuerzan, el animal aprende a esperar. Y a

medida que se acerca el tiempo del refuerzo, la tasa de respuesta aumenta. El patrón de este programa se denomina feston del intervalo (festoneado). Tras la obtención

del refuerzo hay una pequeña pausa post-reforzamiento, estas pausas y la aceleración posterior hacia el final del intervalo reflejan la habilidad rudimentaria del animal para

controlar el tiempo. Este programa requiere respuestas instrumentales, el hecho de que haya pasado el tiempo a partir del cual se otorgara el refuerzo, implica que la

paloma vuelva a responder, y a partir de ahí lo obtendrá. Por ejemplo en un IF 4 min, pasan los 4 minutos y la siguiente repuesta de la paloma es a la media hora, será ahí

cuando obtenga el reforzador, y no a los 4 minutos. El intervalo determina cuándo el reforazador esta disponible, pero no cuando se entrega.


43

En un programa de intervalo variable (IV) las respuestas se refuerzan tras haber transcurrido un intervalo variable desde la administración del reforzador previo. La

cantidad necesaria de tiempo es impredecible. El valor del IV es la media de tiempo necesaria. Los reforzadores no se dan gratis, se dan, si el animal responde tras un

intervalo variable de tiempo. En los experimetos el reforzador suele estar disponible hasta que se realice la respuesta sin importar el tiempo de espera. Pero en la vida real,

no es asi. El tiempo se espera suele estar restringido, y se denomina espera limitada. Las tasas de respuestas son constantes y estables sin pausas regulares al igual que en

los programas de RV.

Comparacion entre programas de razón y de intervalo

En programas de razón fija e intervalo fijo hay una pausa post reforzamiento y hay altas tasas de respuesta justo antes de la administración del siguiente reforzador.

En programas de razón variable e intervalo variable hay tasas estables de respuesta sin pausas.

Esto no quiere decir que los programas de razón e intervalo motiven la conducta de igual manera. Ambos activan diferentes cambios neuroquímicos en el cerebro, y en el

caso de los programas de intervalo interviene el sentido temporal del organismo, no asi, en los programas de razón.

En experimientos donde se da la misma cantidad de reforzadores, pero en un caso en un programa de RV y en otro animal en uno de IV, se demuestra que hay muchas mas

alta tasa de respuesta en el programa de RV.

Los programas de razón producen tasa de respuestas mas altas que los programas de intervalo, y esto se puede deber al espaciamiento entre respuestas justo antes del

reforzamiento. El intervalo entre una respuesta y la siguiente se llama tiempo interrespuesta o TIR. En el programa de razón, al no haber restricciones acerca de cuando

cuentan las respuestas para conseguir el reforzador, se favorecen TIR cortos, favorece que no se espere mucho entre las respuestas. Ocurre al contrario en los programas

de intervalo, favorece TIRS largos. Si una bolita de comida esta disponible después de 3 minutos, las respuestas que se hagan en periodos mas cortos no serán reforzadas,

por esto, se favorece la espera. Por esto se observan tasas de respuesta menores en los programas de intervalo que en los de razón.

PROGRAMA DE REFORZAMIENTO DE LA TASA DE RESPUESTA.

Requieren que el organismo responda a una tasa particular de respuesta para obtener el reforzador. El reforzamiento de una respuesta particular depende de cuan pronto

ocurra tras la respuesta precedente. Por ejemplo, se puede establecer un programa de reforzamiento, en el que la respuesta se refuerce si ocurre dentro de los 5 segundos


44

o antes de tiempo. Esto indica una tasa de respuesta de 12 respuestas por minuto. El animal será reforzado si consigue este valor o uno mayor. Este procedimiento favorece

tasas de respuesta alta y se denomina reforzamiento diferencial de tasas altas o RDA.

En el reforzamiento diferencial de tasas bajas o RDB se refueza una respuesta solo si ha ocurrido después de determinado tiempo, fomentando asi que se responda

lentamente.

CONDUCTA DE ELECCION.

Entender los mecanismos de elección es fundamental para comprender la conducta, ya que las elecciones que hacen los organismos determinan la ocurrencia de

respuestas individuales. La situación de elección mas simple consta de dos respuestas alternativas, cada uno seguida de un reforzador de acuerdo a su propio programa de

reforzamiento. Normalmente se utilizan cajas de Skinner con dos teclas de picoteo, cada una respondiendo a un programa distinto de reforzamiento que funcionan al

mismo tiempo, por esto, se denomina programa concurrente. El animal es libre para cambiar de un lado a otro. Una forma de medir la conducta de elección es con la tasa

relativa de respuesta, dividiendo las respuestas en una tecla sobre el total de respuestas dadas. Ra/(Ra + Rb). Si se picote igualmente en las dos teclas, la tasa es 0,5. Ra será

menor a 0,5 si picote menos en A, y será mayor a 0,5 si picote mas en A. Otra forma de medir es con la tasa de reforzamiento conseguido con cada opción, utilizándose la

misma formula. ra/(ra+rb).

Ley de igualación

La tasa relativa de respuesta y la tasa relativa de reforzamiento para cada alternativa es igual a 0,5. Por esto, R=r.

La ley de igualación se basa en que la tasa relativa de respuesta en una alternativa dada, estaba siempre muy cercana a la tasa relativa de reforzamiento logrado en esa

alternativa. Si se obtiene mayor cantidad de reforzadores en A, se realiza un mayor numero de respuestas en A. por tanto una tasa se “iguala” con la otra.

Esto se puede expresar con las siguientes expresiones matematicas: Ra/(Ra+Rb) = ra/(ra+rb)

Ra/Rb= ra/rb

Tasa relativa de respuestas

Tasa relativa de reforzamiento

Esta ley indica que las elecciones no se hacen de forma caprichosa sino que son una función ordenada de las tasas de reforzamiento. A pesar de su éxito, se ha comprobado

que esta igualación no siempre ocurre y por eso se añadieron dos parámetros: s y b.

Ra/Rb= b (ra/rb) s


45

s�� sensibilidad de la conducta de elección a las tasas relativas: cuánto me afecta la tasa de reforzamiento de este programa

s = 1 � igualación perfecta: tasas relativas de respuesta son una función directa de las tasas relativas de reforzamiento

s > 1 � supraigualación � > sensibilidad al reforzador

s < 1 � infroigualación �< sensibilidad al reforzador

Variables que determinan “s”: la especie, la dificultad en el cambio de un programa a otro…

Infraigualación: Al ser menor la sensibilidad a la diferencia entre los reforzadores, la proporción Ra/Rb es menor, lo que se traduce en que la tasa de respuesta es bastante

similar entre los dos programas de reforzamiento

Supraigualación: Al ser mayor la sensibilidad a la diferencia entre los reforzadores, la proporción Ra/Rb es mayor, lo que se traduce en que la tasa de respuesta es muy

diferente entre los dos programas de reforzamiento

En realidad, en estas relaciones influyen tanto la cantidad como la calidad del reforzador: si es un reforzador valioso, unos poquitos bastan para que el animal prefiera ese

programa a otro. Se suele dar mas la infraigualacion que la supraigualacion.

Hacer mas difícil el cambio de una alternativa a otra, incrementa la sensibilidad.

b�� sesgo de respuesta (bias). Influye en la elección cuando las alternativas de respuesta son diferentes. Es una preferencia por uno de los dos programas en particular,

incluso aunque proporcione la misma tasa de reforzamiento que el otro (por ejemplo, la respuesta en sí puede ser más cómoda)

b = 1 � no hay sesgos o preferencias por una conducta o un reforzador.

La tasa relativa de respuesta es una función de la cantidad relativa de cada reforzador asi como de la demora relativa del reforzamiento. También se hallo que depende de

la palatabilidad, cantidad y demora del reforzador. Cuanto mayores sean, tendrá mayor valor.

En situación en las que la repuesta que se puede dar es única, también existe una elección. Entre esa respuesta especifica y realizar cualquier otra actividad. En un

programa se recibe reforzamiento explicito por una resuesta operante y reforzamiento intrinseco por otra actividad que se pueda realizar. En este caso el lugar de

considerar una segunda opción B, consideramos a la otra actividad que se puede realizar como Ro. Asi la formula seria:

Ra/(Ra+Ro) = ra/(ra+ro)

Presuponiendo que Ra + Ro es igual a una constante que no guarda relacion con el reforzador � Ra = k ra/(ra+ro) Esto predice que la tasa de respuesta Ra esta directamente relacionada con la tasa de reforzamiento ra de una forma negativamente acelerada. También implica que la tasa

de respuesta disminuirá a medida que aumenta la tasa de las otras fuentes de reforzamiento ro. Teniendo en cuenta esto, se puede modificar la tasa de respuesta

cambiando la tasa de reforzamiento o cambiando la tasa de las otras fuentes de reforzamiento. Actualmente se cuestiona la presuposición de que Ra + Ro es constante.


46

MECANISMOS DE LA LEY DE LA IGUALACION.

Esta ley describe como los organismos distribuyen sus respuestas en una situación de elección pero no explica los mecanismos responsables de esta distribución de

respuestas.

Teorias molares: Ignoran lo que ocurre a nivel de respuesta, basándose en agregados de respuestas y se relacionan con la distribución total de respuestas y reforzadores en

las situaciones de elección. La teoría de la maximización molar predice que el animal hace los cambios precisos para obtener el máximo de reforzadores a la larga. Una

teoría molar dice que lo que guía las elecciones es un cálculo a medio-largo plazo de las consecuencias de cada alternativa.

Teorias moleculares: Se centran en lo que ocurre a nivel de respuestas individuales y consideran la relación de igualación como el resultado neto de estas elecciones

individuales. La teoría de la maximización molecular considera que los organismos siempre eligen cualquier alternativa de respuesta con mejores probabilidades de que sea

reforzada en ese momento. El animal hace un cambio de programa para obtener un reforzador determinado. Lo que guía las elecciones es en cada momento lo que ofrece

cada alternativa de respuesta, sin preocuparse por el balance más general.

Teoría del mejoramiento: El animal cambia para obtener una tasa local de reforzamiento mejor que la actual. Partimos de una situación donde hay un programa

concurrente de reforzamiento, lo que quiere decir que hay dos alternativas de respuesta simultáneamente disponibles. El animal puede elegir la alternativa A o la B, lo que

implica que le va a dedicar una parte del tiempo total a cada alternativa. Imagínese que, por ejemplo, el experimento dura 60 minutos y que de esos 60 minutos el animal

se dedica a la alternativa A 45 minutos y a la B 15 minutos. Para calcular la tasa global se tiene en cuenta el total de los 60 minutos, por lo que habría que divir por 60 el

número de respuestas o de reforzadores. En cambio para calcular la tasa local, en el caso de la alternativa A habría que dividir por 45 y en la alternativa B por 15. Para el

cálculo de la tasa local hay que tener en cuenta únicamente el tiempo efectivo en que el animal ha estado dedicado a esa alternativa, no el tiempo total disponible.

La tasa local se calcula teniendo en cuenta el total de eventos (respuestas o reforzadores) por el tiempo efectivo en que se está en esa alternativa de respuesta. Si, por

ejemplo, en un programa de IV 5 minutos se está 10 minutos y en un programa de IV 10 minutos se está 5 minutos, la tasa local de respuesta puede ser la misma, puesto

que en IV 5 se darán el doble de respuestas que en IV 10 pero también se le dedicará el doble de tiempo.

Según esta teoría el animal cambiara su preferencia a favor de la alternativa de respuesta que arroje la tasa local de reforzamiento mas alta. Estos cambios de un lado a

otro, continuaran hasta que la tasa de reforzamiento conseguida en las dos alternativas sea igual.

Ejemplo: programa A� IV 1 min y programa B � IV 3 min.

En una sesión de 30 min, entre los 2 programas hay un máximo de 40 reforzadores posibles (30+10). Si la paloma se queda sólo en el programa A, no obtiene más que 30

reforzadores.

1. La paloma empieza con el programa A, porque ofrece la mayor tasa de reforzamiento (30/30).

2. Prueba por azar a responder un par de veces en la tecla B y como las respuestas están espaciadas consigue reforzadores.


47

3. Eso eleva mucho la tasa local de reforzamiento en B: le ha dedicado poco tiempo y ha obtenido muchos reforzadores. Por eso cambia a B.

4. El proceso se repite hasta que las tasas locales de A y B se igualan. Ya no hay un programa mejor que otro. (Esto es la ley de la igualación).

ELECCION CON COMPROMISO

Se basa en situaciónes donde elegir una alternativa no nos permite cambiar cuando queramos a la otra, sino que al elegir una, la otra deja de estar disponible, y la elección

involucrara planificaciones y metas a largo plazo. Ejemplo: ir a la universidad o comenzar a trabajar. Las elecciones importantes en la vida, a menudo, implican un beneficio

pequeño a corto plazo frente a un beneficio demorado a largo plazo. Este es el problema del autocontrol. Una persona que carece de él, elegirá recompensas pequeñas a

corto plazo.

Programas concurrentes encadenados.

Para analizar esto en laboratorio, se utiliza la técnica del programa concurrente encadenado. Este tipo de técnica nos ayuda a ver las preferencias entre los distintos

programas de reforzamiento (RF,RV,IF,IV) que tiene un animal.

Este programa involucra al menos dos fases. En la primera, el eslabon de elección, se permite al participante elegir entre dos programas alternativos realizando una de dos

respuestas. En esta fase no se proporciona comida, la oportunidad para el reforzamiento sudece después de esta elección inicial cuando la paloma se encuentra en el

eslabon terminal. La consecuencia inmediata es un estimulo asociado con el eslabon terminal elegido, por esto, el estimulo del eslabon terminal se convierte en un

reforzador condicionado. Las diferencias entre el valor del reforzador condicionado determinara la tasa relativa de respuesta de elección, en el eslabon incial.

Estos programas implican elección con compromiso, porque una vez realizada la elección, el animal esta comprometido con esa elección hasta el eslabon terminal del

programa. Estos estudios demostraron que la paloma prefiere los programas de razón variable. Incluso aunque requiera mas respuesta que el RF. Esto se prefiere porque a

veces se obtiene el reforzador con un numero pequeño de respuestas. Profesor: En el eslabón inicial es en el único momento donde se elegiría entre las dos alternativas de

respuesta, que estarían señaladas por estímulos idénticos (por ejemplo, teclas de color blanco), el animal digamos tendría que elegir entre responder a la derecha o a la

izquierda. Si elige la derecha, se cancela la alternativa izquierda y se queda con la alternativa derecha por un tiempo. El cambio se señala con el apagado de la tecla

izquierda y el cambio de color de la tecla derecha, digamos de blanco a rojo. En el eslabón terminal, con la tecla iluminada de rojo, se consigue el reforzador primario

respondiendo. La iluminación de la tecla de color rojo se convertiría en una clave (un reforzador condicionado) de que en su presencia se va a conseguir comida el reforzador

primario). Igual sucedería si se eligiese responder a la izquierda, lo único es que el color de la tecla aquí no podría ser rojo, digamos que pudiese ser verde.

Autocontrol

Es cuestion de elegir una recompensa grande demorada o una pequeña inmediata. Los estudios demostraron que en el caso de una elección directa, el reforzador sea una

recompensa pequeña inmediata o una recompensa grande demorada, estaba disponible tan pronto como se pulsaba la tecla. En este caso se prefería la pequeña, ya que las

palomas no mostraban autocontrol. En el caso de un procedimiento recurrente encadenado, si se imponía una demora suficiente antes del eslabon terminal, las palomas


48

mostraban autocontrol y elegian la recompensa grande. Las preferencias cambian, a favor de una recompensa grande demorada, si se requiere que los participantes

esperen mas tiempo para recibir cualquier recompensa tras la elección. Si la recompensa es inmediata a la elección el animal no muestra autocontrol, pero si se añade una

espera constante a la entrega de ambas recompensas, se prefiere esperar a la recompensa grande. Esto representa una propiedad general de la conducta de elección ya

que se ha demostrado en animales y en humanos.

Un principio general, que es la clave del autocontrol es el siguiente es que el valor de un reforzador se reduce en función de cuánto tiempo se tiene que esperar para

obtenerlo. La función matemática que describe esta disminución en el valor se llama función descontadora del valor: V = M/ (1+KD), denominada función del

decaimiento hiperbolico.

V = Valor del reforzador.

M = Magnitud de la recompensa.

D = Demora.

K = Tasa descontadora (cuánto se devalúa el reforzador por cada unidad de tiempo que nos separa de él). Indica el grado de “impulsividad”.

Si el reforzador se entrega sin demora (D=0), el valor del reforzador esta directamente relacionado con su magnitud. Cuanto mas se demora el reforzador, menor es su

valor.


49

Los abusos de sustancias, implican elecciones impulsivas. Siempre se preferira una recompensa pequeña y rapida de intoxicacion, antes que consecuencias negativas

demoradas de problemas interpersonales. Se descuenta el valor de las consecuencias a largo plazo. Por esto, los adictos demuestran funciones de descuento de la

recompensa mas acusadas que otros individuos. El valor del dinero, disminuye muy rapido si la recepcion se demora.

El autocontrol puede entrenarse con recompensas demoradas, asi se incrementa su tolerancia.

TEMA 7: MECANISMOS MOTIVACIONALES EN CONDICIONAMIENTO INSTRUMENTAL

La motivación de la respuesta instrumental ha sido considerada desde dos perspectivas radicalmente distintas.

Una persepectiva se origino con Thorndike e incluye el análisis de la estructura asociativa del condicionamiento instrumental. Se interesa por las asociaciones y por esto es

compatible con la tradición teorica del condicionamiento pavloviano. Esta aproximación toma una perspectiva molecular, ya que se centra en las respuestas, sus

antecedentes (los estimulos) y sus consecuencias (los reforzadores).

La otra persepectiva es la de la regulación conductual, con una clara influencia skinneriana, considera el condicionamiento instrumental en un contexto mas amplio que la

conducta aislada. Se centra en cómo un procedimiento instrumental establece límites al libre flujo de las actividades naturales de un organismo y las consecuencias de

dichas restricciones. Es una perspectiva molar.


50

ESTRUCTURA ASOCIATIVA DEL CONDICIONAMIENTO INSTRUMENTAL

La respuesta instrumental ocurre en presencia de estimulos particulares. En el análisis del condicionamiento instrumental deben considerarse el contexto estimular E, la

respuesta instrumental R, y la consecuencia de la respuesta o reforzador C. Skinner se refiriro a estos tres sucesos y describió el CI, como una contingencia de tres términos.

E C

R

Asociación E-R y ley del efecto

Existen varias asociaciones en el CI, una de ellas es la asociacion E-R que fue postulada por Thorndike como la clave del aprendizaje instrumental en su ley del efecto. Según

esta ley, el papel del reforzadores establecer una asociacion entre las claves del contexto E, y la respuesta instrumental R.

Una vez establecida esta asociacion, ésta seria la única responsable de la respuesta instrumental. Por tanto la motivación para realizar la respuesta instrumental era la

activación de la asociacion E-R, exponiendo al sujeto, a los estimulos en presencia de los cuales se reforzó su respuesta instrumental. Esta ley no incluye aprendizaje en

cuanto al reforzador C, ni analiza ninguna relacion entre R y C. aquí el único papel de C es crear una asociacion E-R, y el reforzador en si mismo no participa en esta

asociacion.

Expectativa de recompensa y asociacion E-C

Todos esperamos que algo ocurra cuando se dan los estimulos que permiten predecir que el estimulo ocurrirá. Esto es nuestra expectativa de recompensa. Una explicación

a esto, es ver como los condicionamientos pavlovianos, están involucrados en el aprendizaje instrumental.

Cualesquiera que sean los estimulos, el reforzamiento de una respuesta C, va a producir una asociacion entre el estimulo y la recompensa obtenida después de realizar la

respuesta.

Hull propone que la respuesta intrumental esta motivada por dos factores, E-R y R-C: 1) en la presencia de E se evoca la R directamente por la asociacion E-R, y 2) se

responde a la expectativa de recompensa debido al establecimiento de la asociacion R-C.

Teoría moderna de los dos procesos


51

Una de las formas de explicar, de qué forma la R-C motiva la conducta instrumental, es a través de la teoría moderna de los dos procesos. Esta teoría asume que hay dos

tipos distintos de apendizaje, el pavloviano y el instrumental, los cuales están relacionados de una forma especial, durante el condicionamiento.

Durante el curso del condicionamiento instrumental los estimulos se llegan a asociar con las consecuencias de la respuesta a través de condicionamiento pavloviano. Y es a

través de esta asociacion E-C que el estimulo llega a motivar la conducta instrumental, activando estados emocionales. Por ejemplo la esperanza. (Son fundamentales para

la motivación de la condcuta)

Asume que el condicionamiento pavloviano media en la conducta instrumental, a través del condicionamiento de estados emocionales como la esperanza o el miedo.

Para explicar cómo la expectativa pavolviana motiva la conducta instrumental se utilizaron los experimentos de de transferencia de control. Si un estimulo provoca

esperanza y activa la respuesta instrumental, el hecho de agregar un estimulo pavloviano que fue previamente condicionado y que también provoca esperanza, provocara

que se aumente la esperanza y se incrementen las respuestas.

Las fases del experimento de transferencia son las siguientes:

Fase 1: Condicionamiento instrumental de una respuesta operante utilizando un programa de reforzamiento.

Fase 2: Condicionamiento clásico, en el que un EC se asocia con la presencia o ausencia de un EI. Es necesario que durante esta fase no esté presente el condicionamiento

instrumental.

Fase 3: Fase de transferencia: Los participantes pueden realizar la respuesta instrumental y se presenta periódicamente el EC de la fase 2 para observar su efecto en

la tasa de conducta instrumental.

Si la emoción elicitada por el EC pavloviano es compatible con la emoción establecida durante el condicionamiento instrumental, se comprobó que se da un aumento en la

respuesta durante la señal pavloviana.

El incremento o disminución de un respuesta instrumental, no solo puede darse como consecuencia de los estados emocionales. Ya que un estimulo condicionado

clásicamente también elcita respuestas concretas. Ejemplo: el EC hace que el animal se quede quieto, y la respuesta instrumental consiste en saltar hacia atrás y hacia

adelante, al aparecer el EC interferirá con la conducta de salto, y en este caso no se debe a ningún estado emocional. También puede ocurrir el caso contrario, que se

incremente una respuesta porque el EC elicita la misma respuesta que la instrumental, y aquí tampoco intervienen estados emocionales.

Muchas veces, en lugar de estados emocionales, se generan expectativas especificas de recompensa durante el condicionamiento instrumental y el clásico, y son estas las

que determinan los resultados en lugar de los estados emocionales.

Relacion R-C y E (R-C)

Hasta ahora vimos que la conducta puede estar motivada por una asociacion E-R o una asociación E-C que activa expectativas especificas de recompensa o estados

emocionales. Sin embargo, la intuición sugiere que la conducta instrumental involucra asociaciones R-C (me peino el cabello para estar mas atractiva).

Estas asociaciones no se tienen en cuenta en el modelo de los dos procesos.

Esta teoría además asume que el emparejamiento E con C es suficiente para que ocurra la respuesta instrumental. Pero esto no es asi, C no puede predecirse a partir de E

solamente, ya que C ocurre si el participante realiza R en presencia de E.


52

Una forma de demostrar que existe la asociacion R-C es devaluar el reforzador para ver si disminuye R.

1ª Fase: Entrenamiento de dos conductas con IV1 con reforzadores distintos

2ª Fase: Devaluación del reforzador: Reforzador + condicionamiento de aversión.

3ª Fase: Posibilidad de realizar las 2 conductas aprendidas.

Resultado: La conducta cuyo reforzador ha sido condicionado aversivamente disminuye. Esto solo se explica con la existencia de una asociacion R-C, no con E-C ni con E-R.

Sin embargo, la asociacion R-C (que se active una expectativa del reforzador) no puede aisladamente producir la conducta instrumental. Se necesitan un factor adicional

que es E. E activa la asociacion R-C, no R directamente. Cuando el sujeto se encuentra con E, piensa en la asociacion R-C y eso motiva su conducta.

REGULACION CONDUCTUAL

Se centra en cómo las contingencias instrumentales ponen limitaciones a las actividades de un organismo.

Antecedentes

El reforzador es un tipo especial de estimulo.

Teoría de la respuesta consumatoria: para esta teoría sólo un tipo de respuestas (las consumatorias) podrían funcionar como reforzadores. Propone que los reforzadores

no son estímulos sino respuestas, pero que no todas las respuestas pueden funcionar como reforzadores. Las respuestas consumatorias típicas de la especie (comer,

beber...) son en sí mismas el rasgo crítico de los reforzadores. Esta teoría considera que las respuestas reforzadoras son especiales porque involucran la consumación o el

completamiento de una secuencia instintiva de conducta. La teoría asume que las respuestas consumatorias (masticar y tragar, x ej.) son fundamentalmente diferentes de

varias respuestas instrumentales potenciales (correr, saltar...).

Principio de Premack: “Dadas dos respuestas de diferente probabilidad, A y B, la oportunidad para realizar la respuesta de alta probabilidad A después de la respuesta de

baja probabilidad B tendrá como resultado el reforzamiento de la respuesta B. (B�A refuerza a B). la oportunidad para realizar la respuesta B de baja probabilidad después

de la respuesta A de alta probabilidad no dara como resultado el reforzamiento de la respuesta A (A�B no refuerza A).


53

– Una conducta muy probable es una conducta muy preferida.

– Las conductas probables (preferidas) sirven para reforzar las menos probables y hacer que se repitan más en el futuro.

– Respuesta reforzadora: La que se usa para reforzar otra. (preferida)

– Respuesta instrumental: La que es reforzada con otra. (no preferida)

– Las conductas poco probables (no preferidas) sirven para castigar las más probables y hacer que no se repitan tanto en el futuro.

– La conducta instrumental es la que castigo, la conducta reforzadora es la que yo impongo como castigo.

Procedimiento habitual:

– Dejo a los animales libremente y observo las probabilidades diferenciales de las conductas. O sea:

– Cuáles son las conductas que más repiten. Ésas son las conductas que puedo usar como conductas reforzadoras.

– Las que menos repiten pueden usarse como conductas instrumentales.

– Una misma conducta puede ser reforzante para un animal (o una persona) y no para otra.

– En este principio influyen variables como el estado motivacional del animal: Si un animal tiene sed, pasa más tiempo bebiendo que corriendo. Por eso beber puede ser

una respuesta reforzadora de correr. Si un animal no tiene sed, pasa más tiempo corriendo que bebiendo. Por eso no podemos reforzar el correr con acceso a

bebida.


54

Hipotesis de la privacion de la respuesta:

Premack reconocio la importancia de restringir el acceso a la respuesta reforzadora en el condicionamiento instrumental. Considero la privacion de la respuesta condicion

necesaria para el reforzamiento y algo adjunto al principio de probabilidad. Diferencial.

Timberlake y Allison abandonaron totalmente el principio de probabilidad y argumentaron que la restriccion de la respuesta era el factor critico en el reforzamiento. Lo

importante no es la probabilidad diferencial de las conductas (cuáles se repiten más y cuáles menos), sino el estado de privación de una determinada conducta. Puede que

en el estado natural correr sea una conducta de baja probabilidad, pero si yo privo el acceso a esta conducta, entonces la puedo usar como respuesta reforzadora. Por esto,

una respuesta de baja probabilidad puede servir como reforzador si el sujeto tuviera restringido realizar esa actividad.

Conclusiones. Los puntos de vista tradicionales sobre el reforzamiento asumen que el reforzamiento es algo que existe independientemente de un porcedimiento de

condicionamiento instrumental. Las perspectivas estimulares y la teoria de la respuesta consumatoria asumen que los reforzadores existen se utilicen o no un

procedimiento de cond. Inst. la hipotesis de privacion de la respuesta hace explicita la idea de que un reforzador es producido por la contingencia instrumental en sí misma.

El principio de Premack fue el primero que sugirio que los reforzadores no existen en sentido absoluto, sino que un reforzador depende de la probabilidad de ocurrencia de

la respuesta instrumental. No implica que el procedimiento de cond. Inst. es el responsable de la creacion de la creacion de un reforzador.

REGULACION CONDUCTUAL Y PUNTO DE DELEITE CONDUCTUAL

Las teorías de la regulación conductual asumen que existen mecanismos homeostáticos también para la conducta, aparte de los fisiológicos. Los organismos tiene una

distribución de actividades preferida u óptima que luchan por mantener frente a los a los cambios. Las teorías de la regulación conductual se centran en el grado en que la

contingencia instrumental respuesta-reforzador rompe la estabilidad conductual y empuja al individuo fuera de su distribución de actividades preferida u óptima.

Si los organismos son libres para distribuir sus respuestas entre las alternativas posibles, lo harán de la forma en que sea más cómodo o en algún sentido “optimo” para

ellos. Esta distribución de la respuesta define el punto de deleite conductual. La distribución de las actividades que constituye el punto de deleite variará según la situación.

El punto de deleite conductual puede identificarse mediante la frecuencia relativa de ocurrencia de todas las respuestas de un organismo en una situación sin restricciones.

Ejemplo: miro la tele 60 min por cada 15 minutos de estudio.

La teoría de la regulación conductual establece que los organismos defenderán el punto de deleite conductual contra los cambios, exactamente como la regulación

fisiológica incluye la defensa de los cambios desde un punto de vista fisiológico. El punto de deleite es la motivación para la conducta instrumental. La tasa de respuesta se

mantiene lo más cerca posible del nivel preferido sin cambiar demasiado la otra respuesta de su nivel preferido.

Staddom propuso un modelo de desviacion minima de regulacion conductual para resolver el dilema de las restricciones en el programa. Según este modelo la introducción

de una contingencia respuesta-reforzador provoca que los organismos redistribuyan sus conductas entre las respuestas instrumentales y contingentes de manera que se


55

minimice la desviación total de las dos respuestas con respecto al punto óptimo o de deleite. Para situaciones en que el punto de deleite conductual de la linea base libre

no puede alcanzarse, el modelo de desviación mínima proporciona un punto de vista sobre cómo los organismos se adaptan para lo siguiente mejor.

El acceso al reforzador esta restringido, para tener una mayor oportunidad de acceder a él, el sujeto tendra que realizar mas respuestas instrumentales. El aumento de

estas respuestas es el resultado de mecanismos reguladores de la conducta que funcionan para minimizar las desviaciones del punto de deleite.

El reforzamiento provoca un incremento en la ocurrencia de una respuesta instrumental sobre el nivel de esa conducta en ausenciade la contingencia respuesta-reforzador.

Es el resultado de mecanismos reguladores de la conducta que funcionan para minimizar las desviaciones del punto de deleite conductual.

En la vida diaria normalmente tenemos más de dos opciones y si una de ellas es restringida podemos realizar otras, lo que afecta a la forma en la que nos adherimos a un

programa de reforzamiento determinado. Si podemos hacer otra cosa que nos gusta, nuestro tiempo estudiando no aumentará. Esto demuestra que es necesario

considerar un contexto mas amplio. No solo los estimulos, las respuestas instrumentales, y los reforzadores. Ya que asi se desatiende un contexto mas amplio en el que

operan las contingencias instrumentales.

INTRODUCCION DE CONCEPTOS ECONOMICOS.

Los psicologos se han interesado por las semejanzas entre las restricciones economicas en el mercado y las restricciones en los programas de condicionamiento

instrumental. La curva de demanda es la relacion entre el precio de un producto y la cantidad que se obtiene. El grado en el que influye el precio en el consumo se


56

denomina elasticidad de la demanda. Por analogia, consideraremos el nº de respuestas realizada o el tiempo empleado como el dinero. El precio es el tiempo o nº de

respuestas requeridas para obtener el reforzador. El precio del reforzador esta determinado por el programa de reforzamiento.

Hay factores que determinan el grado de elasticidad de la demanda: 1) Disponibilidad de sustitutos: La presencia de otras alternativas de reforzamiento hace que no

estemos dispuestos a esforzarnos más por conseguir lo mismo. Cuando hay disponible un producto (o conducta) que sustituye a otro que se ha vuelto “caro”, entonces

podemos abandonar el producto caro y pasar al sustituto. 2) El rango de precios tambien influye ya que un aumento en el precio tiene menos efecto en los precios bajos

que en los altos. 3) nivel de ingresos: cuanto mas salario, menos se desanimara el consumidor frente a un aumento.

En cuanto a las adicciones: -Se fija un coste alto para el uso de la droga (multas, penas de cárcel, daño físico y psíquico). -Un reforzador que sustituye a la droga y NO es una

droga está disponible (hace falta encontrar ese sustituto). -Eso hace que la demanda de la droga sea MÁS ELÁSTICA: al aumentar su coste, se consume menos la droga y

más el sustituto que hemos buscado.

Algunos problemas de la regulacion de la conducta.

El punto de deleite se formula desde un punto de vista molar (como un conjunto, y a lo largo de un periodo amplio). Sin embargo, está demostrado que es importante

cómo se alcanza ese punto de deleite (pautas de elección en los cambios de una conducta a otra), desde un punto de vista más molecular. El punto de deleite de 60 min de

tele frente a 15 min de estudio puede alcanzarse o bien haciendo una actividad antes que la otra, o bien alternando. Otro problema es el “valor reforzante” de una

conducta puede cambiar según si es obligada o no (por ejemplo).Por ejemplo, al principio una conducta A puede ser agradable, pero cuando la utilizo para reforzar otra

conducta B, estoy imponiendo la conducta A. ¿Cómo sé si sigue siendo tan agradable como al principio?. En las investigaciones se presupone que el valor es el mismo, pero

posteriormente se demostro que hacer algo por placer, es diferente a hacer algo eso mismo cuando se requiere por una contingencia instrumental impuesta.

Contribuciones de la regulacion de la conducta.

1.Antes se pensaba en los reforzadores como tipos especiales de estímulos. Desde la aproximación de la regulación conductual, la causa del reforzamiento está en la forma

en que el flujo libre, natural, de la conducta se ve alterado por las contingencias instrumentales. Una conducta puede ser reforzante

2. Una respuesta reforzadora no tiene nada inherentemente distinto de una respuesta instrumental: no proporciona ningún beneficio especial, por ejemplo fisiológico (ej:

hacer ejercicio vs. comer caramelos). Simplemente, el que una conducta sea reforzadora o instrumental va a depender de los papeles que les asigne el terapeuta /

experimentador.

3. Ahora, el entrenamiento instrumental ya no sirve sólo para “fijar” o “eliminar” una conducta, sino que crea una nueva distribución de conductas en general.

4. Ha contribuido a ver el condicionamiento instrumental como un sistema, en vez de cómo elementos aislados. Al cambiar un solo elemento, el sistema entero se ve

afectado.

Conclusiones finales.

Perspectiva asociacionista Perspectiva de regulacion concutual

Tradicion en la ley efecto de Thorndike. Tradicion skinneriana.


57

Nivel molecular: el objetivo son los Nivel molar: el objetivo es un contexto

estimulos, respuestas y sus conexiones. mas amplio donde operan contingencias

instrumentales.

Describe procesos especificos y no tiene Asume que los organismos trabajan para

en cuenta el "proposito". defender una distribucion optima de las

actividades.

TEMA 8: EL CONTROL DE LA CONDUCTA POR EL ESTIMULO

Los estímulos del ambiente pueden llegar a determinar si la conducta se presenta o no, o modularla de diversas formas.

Tanto Thorndike como Skinner reconocieron que las respuestas instrumentales y los reforzadores no suceden en el vacio, sino en presencia de estimulos particulares. El

control de la conducta por el estimulo es un aspecto importante de la forma en que los organismos se adaptan al ambiente. La supervivencia depende de la habilidad para

responder apropiadamente a la situación. Es tan importante la adecuación de la respuesta instrumental al contexto estimular en el que se realiza, que la falta de un

apropiado control del estimulo se considera a menudo anormal. Desvestirse es aceptable en la intimidad pero no en publico.

IDENTIFICACION Y MEDIDAS DE CONTROL POR EL ESTIMULO

¿Cómo se puede afirmar que una respuesta instrumental esta bajo el control de ciertos estimulos?

El control por el estimulo de la conducta instrumental se demuestra mediante variaciones en la respuesta relacionadas con las variaciones en los estimulos. Si un

organismo responde de una manera en presencia de un estimulo, y de forma diferente en presencia de otro, podemos decir que esta su conducta esta bajo el control de los

estimulos.

Si se da la conducta diferencial, es porque el animal esta tratando cada estimulo de forma diferente, lo que se denomina discriminación de estimulos. Un organismo

muestra discriminación de estimulos si responde de forma diferente a dos o mas estimulos. Una no existe sin la otra (discriminación y control por estimulo).

Frente a dos estimulos diferentes (circulo rojo y triangulo blanco) y dos sujetos, la conducta de cada uno de ellos puede estar controlada por estimulos diferentes. Es difícil

predecir qué componente del estímulo original va a tener el control. Unas palomas responden más al círculo, otras al triángulo.

Se dice que un organismo muestra generalización de estimulos (lo contrario a la respuesta diferencial) si responde de forma similar a dos o mas estimulos. La generalización

es más habitual cuando los estímulos son parecidos, porque cuesta más distinguirlos. Tanto generalización como discriminación son requisitos necesarios para

desenvolverse en el mundo.

Los gradientes de generalización del estímulo se utilizan para medir el control por el estímulo porque facilitan información sobre el grado de sensibilidad de la conducta de

un organismo ante la variación de un aspecto particular del ambiente. Utilizando los gradientes de generalización del estímulo podemos determinar exactamente el grado

en que tiene que modificarse un estímulo para producir un cambio en la conducta. Lo acusado del gradiente de generalización de un estimulo proporciona una medida


58

precisa del grado de control del estimulo. Si es plano porque el sujeto responde de igual forma a todos los estimulos, se demuestra que el rasgo del estimulo que se esta

variando no controla la conducta instrumental.

Factores del estimulo que determinan que una caracteristica estimular controle la conducta

1. Capacidad sensorial y orientación: El rango de estímulos que potencialmente pueden controlar la conducta está determinado por el mundo sensorial del organismo. Una

característica de un estímulo que no percibimos no nos permite discriminar o generalizar (la gente no puede oir ultrasonidos, sonidos por encima de 20.000 Hz por tanto un

estimulo de esas caracteristicas no podrá controlar la conducta). En cuanto a la orientación, si no tenemos un contacto directo con el estímulo es posible que este no

controle bien nuestra conducta (Bebe que no puede ver la forma de los juguetes del móvil).

2. Facilidad relativa del condicionamiento de varios estímulos: tener órganos sensoriales y la adecuada orientación no garantizan que el estimulo controle la conducta ya

que este control depende de la presencia de otras claves situacionales. En particular, la intensidad con que los organismos aprenden sobre un estímulo depende de la

facilidad relativa de condicionamiento de otras claves presentes en la situación. Pavlov fue el primero en observar esto: los estímulos pueden competir por el control de la

conducta. Cuanto más intenso sea el estímulo, más rápido se condicionará y ensombrecerá el aprendizaje del estímulo más débil.

3. Tipos de reforzamiento: El desarrollo del control por el estímulo también depende del tipo de reforzamiento que se utiliza. Es más probable que ciertos tipos de

estímulos adquieran control sobre la conducta instrumental con reforzamiento positivo que con reforzamiento negativo. Los procedimientos de reforzamiento con comida

activan el sistema de alimentación. Es más probable que la comida consumida sea identificada con claves visuales que con claves auditivas. En consecuencia, la activación

del sistema de alimentación puede involucrar una sensibilidad incrementada a los estímulos visuales. En contraste, los procedimientos de evitación de descarga activan el

sistema de conducta defensiva. Responder a claves auditivas puede ser particularmente adaptativo para evitar el peligro.

4. Tipo de respuesta instrumental: Otro factor que puede determinar qué rasgos de un estímulo compuesto obtendrán control sobre la conducta es la naturaleza de la

respuesta requerida para el reforzamiento. Ejemplo: perro que tiene que levantar la pata dcha o izq y perro que tiene que levantar la pata o quedarse quieto). Las

respuestas que se diferencian por la localización es más probable que lleguen a estar bajo el control de la característica espacial de las claves auditivas (Influye que el

zumbador este atrás o adelante). Por el contrario, las respuestas que se diferencian por la naturaleza (hacer o no algo) es más probable que lleguen a estar bajo el control

de la naturaleza de las claves auditivas (no influye la posición del zumbador, sino el tipo de sonido que emite). El fenómeno se llama efecto de la naturaleza-localización.


59

5. Elementos del estímulo frente a claves configuracionales en los estímulos compuestos: Hay evidencia de la aproximación elemental (Modelo de Rescorla y Wagner), pero

también de la configuracional (Modelo de Pearce). Ejemplo: El ensombrecimiento se puede explicar de las dos maneras, pero la sumación sólo si asumimos que los

compuestos estimulares se entienden como suma de elementos y no como una configuración irreductible. Según la aproximación elemental del estímulo: Los organismos

tratan a los elementos del estímulo como rasgos distintivos y separados del ambiente, y según la aproximación de la clave configuracional: Los organismos tratan los

estímulos complejos como un todo integral que no se divide en partes o elementos. Los organismos responden a los compuestos estimulares a partir de los elementos del

estimulo que forman el compuesto como en función de las configuraciones estimulares. Según la teoría de Wagner-Brandon, estimulos como el sonido de un tono

contienen rasgos distintivos, que al combinarse con otros, crean nuevos elementos estimulares configuracionales que son únicos. Algunos rasgos del estimulo se pierde en

la combinación. Esto sesga el control por el estimulo a favor de los elementos configuracionales.

FACTORES DE APRENDIZAJE ENE L CONTROL POR EL ESTIMULO

El que ciertos estímulos lleguen a controlar la conducta a menudo depende de lo que el organismo ha aprendido acerca de esos estímulos. Pavlov sostenía que la

generalización del estímulo se da porque el aprendizaje sobre el EC llega a transferirse a otros estímulos en función de la semejanza física de esos estímulos de prueba con

el EC original. Y Lashley y Wade, contrariamente al pensamiento de Pavlov, sostenian que la generalización del estímulo ocurre si los organismos no han aprendido a

distinguir las diferencias entre los estímulos. Rechazan la idea de transferencia de aprendizaje argumentando ausencia de aprendizaje. El aprendizaje previo determinaba la

generalización, más que las propiedades físicas del estimulo.

El procedimiento de discriminación de estimulos situa la conducta bajo el control de un estimulo. Los participantes se exponen al menos a dos estimulos diferentes (luz roja

y luz verde) pero solo se recibe reforzamiento solo en presencia de uno de ellos. El estimulo que señala la disponibilidad de reforzamiento se denomina E+ o ED y el que

señala ausencia de reforzamiento se denomina E- o E∆. Al principio se responde por igual a ambos estimulos, y posteriormente persiste la respuesta ante el E+ y declina la


60

respuesta ante el E-. Este procedimiento establece un control por los estimulos que señala cuando esta disponible o no el reforzamiento. Cuando ambos estimulos

adquirieron control sobre la conducta, se denominan estimulos discriminativos. Uno es discriminativo para la realización de la respuesta, y el otro para la supresión.

Teoría de Spence del aprendizaje de discriminación.

Responde a la pregunta de qué estrategias utiliza el sujeto para asegurarse que la mayoría de sus respuestas serán reforzadas: 1) aprender a responder en presencia del E+

y no aprender nada en presencia del E-, o 2) Suprimir respuesta durante el E-, y no aprender nada sobre el E+. o 3) Aprender el significado tanto del E+ como del E-.

Esta teoría se basa en la ultima posibilidad. Sostiene que el reforzamiento de una respuesta en presencia del E+ condiciona tendencias excitatorias de respuesta al E+. Por el

contrario, el no reforzamiento de la respuesta durante E- condiciona propiedades inhibitorias del E-, lo que sirve para suprimir la conducta instrumental.

Si se ha condicionado una tendencia excitatoria al E+, entonces los estímulos que difieran de forma progresiva del E+ deberían ser cada vez menos efectivos en evocar la

respuesta instrumental y se denomina gradiente de generalización del estímulo excitatorio.

Si se ha condicionado una tendencia inhibitoria al E-, entonces los estímulos que difieran progresivamente del E- deberían ser cada vez menos efectivos en inhibir la

respuesta instrumental y se denomina gradiente de generalización del estímulo inhibitorio.


61

Desplazamiento del máximo

Creer que lo que se aprende del E+ no influye en lo que se aprende del E- es demasiado simplista. Existen interacciones entre ambos. Ç

Un procedimiento de entrenamiento en el que E+ y E- difieren solo en términos del valor de una caracterisiticas del estimulo se denomina dimensión intradimensional.

Este procedimiento esta relacionado con la ejecución experta porque requiere la detección de un único rasgo diferenciador entre E+ y E-. La ejecución experta implica hacer

distinciones sutiles, distinguir un estimulo que difiere en un solo aspecto es mas difícil que distinguir estimulos que difieren en muchos aspectos. Cuanto menos rasgos

distintivos haya entre ambos, mas difícil será distinguirlos.

El fenómeno del desplazamiento del máximo se observa cuando entrenamos diferentes funciones (discriminativo positivo y discriminativo negativo o delta, estímulo

condicionado excitatorio apetitivo y estímulo condicionado inhibitorio apetitivo, por ejemplo) ante diferentes valores de un mismo rasgo del estímulo (diferentes

frecuencias de un sonido, distintos tamaños de un mismo objeto, tonalidades de un color, etc.), lo que se denomina una discriminación intradimensional.

Cuando en la prueba presentamos valores de ese rasgo diferentes a los que han participado en el entrenamiento lo que se observa es que la mayor tasa de respuesta no se

emite ante el E+ original (o ante el valor más cercano a éste) sino que el máximo de respuestas se emite ante un valor del rasgo diferente al E+ original en dirección

opuestas al E-.

Por ejemplo, si entrenamos una luz de 500 nm como E+ y una luz de 600 nm como E-, y luego presentamos 4 luces de 450, 490, 590 y 650 nm cómo estímulos de prueba. El

máximo de respuesta no se emite ante la luz de 490 nm (que es valor más parecido al E+ original: 500 nm), sino ante un valor distinto en dirección opuesta al E-, en este

caso: 450 nm.

El desplazamiento del máximo mantiene una relación directa con la “cercanía” entre el E+ y el E-, cuanto más se parecen estos estímulos más se aleja el máximo del valor

del E+. Por ejemplo, si el E+ es 200 nm el máximo de respuesta se dará en un valor más alejado del E+ si el E- es 190 nm que si es 100 nm.


62

La explicación de Spence (1937) a este fenómeno se basa en la interacción en forma de superposición matemática de los valores absolutos de los E+ y E- originales (los que

han participado en el entrenamiento). En otras palabras, Spence considera que, independientemente de los estímulos que se presenten en la prueba de generalización, es

posible calcular el valor del rasgo del estímulo hacia el que va a desplazarse el máximo de respuestas atendiendo exclusivamente a los valores netos de los E+ y E-

originales. Por ejemplo, si el E+ es una luz de 100 nm y el E- una luz de 50 nm, puede deducirse que el máximo de respuesta se emitirá ante una luz de 150 nm,

independientemente del valor que tengan en ese rasgo los estímulos de prueba que se presenten.

Thomas y Jones (1962) demostraron que la respuesta generalizada no se basa en las diferencias físicas absolutas entre los estímulos sino en sus diferencias relativas. Dicho

de otra forma, que la probabilidad con la que un estímulo nuevo funcionará como otro con el que hayamos tenido experiencia (un EC o un E+, por ejemplo) no depende

exclusivamente del conjunto de rasgos que mantienen en común (parecido absoluto entre el estímulo original y el estímulo de prueba) sino que también dependerá de los

estímulos de prueba que se presenten.

En el estudio de Thomas y Jones se entrenó una luz de 525 nm como E+ a un grupo de sujetos. Para la prueba se dividieron a los sujetos en diferentes condiciones

experimentales que iban a diferir en el tipo de estímulos de prueba presentados (uno igual al E+ original y cuatro diferentes). A los sujetos de la condición 1 se le

presentaron 4 estímulos con longitudes de onda que iban desde los 485 hasta los 515 nm (todos los valores inferiores al E+ original), en la condición 2 los estímulos de


63

prueba iban de los 535 a los 545 nm (todos por encima del E+), y en la condición 3 se presentaron dos estímulos por debajo de los 525 nm y dos por encima. Si la

generalización dependiera de la semejanza absoluta entre el E+ y los estímulos de prueba, en todas las condiciones la mayor tasa de respuesta debería de haberse emitido

ante el estímulo de 525 nm, sin embargo, esto sólo pasó en la tercera condición (que fue la única en la que se observó un gradiente de generalización simétrico). En el resto

de condiciones (1 y 2) el máximo de respuestas se desplazó de 525 nm (el E+ original) hacia un valor cercano a la media en función de los estímulos de prueba presentados.

En la condición 1 el máximo se dio ante la luz de 515 nm y en la 2 ante la luz de 535 nm.

Estos resultados indican que el gradiente de generalización no depende exclusivamente del parecido absoluto entre el E+ y los estímulos de prueba sino que el rango que

marcan los estímulos presentados mueve el máximo de respuestas hacia un valor cercano a la media, lo que se ha denominado como el efecto de tendencia central.

Este efecto de tendencia central, dependiente de los estímulos de prueba presentados, también se observa cuando hemos realizado un entrenamiento de discriminación

intradimensional (entrenando un E+ y un E- que difieren en algún valor de la misma dimensión o rasgo), afectando al valor último al que se desplaza el máximo por el efecto

de interacción. Es a esto a lo que se refieren como una aproximación relacional a la explicación del fenómeno del desplazamiento del máximo.

Equivalencia de estimulos

Si dos estímulos conllevan la misma consecuencia, se convierten en equivalentes funcionales. Se generaliza la conducta. De la misma forma que el entrenamiento en

de estímulos discriminación potencia la respuesta diferencial, el entrenamiento en equivalencia potencia la respuesta generalizada o equivalencia de estímulos.

Ejemplo: entrenamiento con palomas, se da reforzamiento con fotografias que contienen agua. Cuando se aprende el reforzamiento y la relacion agua/no agua, se

muestran nuevas fotografias con agua, y la respuesta se generaliza a las nuevas fotografias.

El emparejamiento de estimulos diferentes con la misma consecuencia crea equivalencias funcionales entre esos estimulos. Como consecuencia, una respuesta

condicionada a uno de ellos se generaliza a los otros. Ejemplo: entrenamiento con ratas, tanto un ruido como un clic se emparejan con comida. Posteriormente, se asocia

ruido con una descarga electrica. Como consecuencia de el emparejamiento anterior de estimulos, se comprobo que la rata tambien asocio el clic con la descarga.

Los estimulos equivalentes cumplen las siguientes propiedades

1. Reflexividad o igualdad: A=A; B=B; C=C.

2. Simetría o bidireccionalidad: Si A conduce a B, entonces B conduce a A. A� B y B� A

3. Transitividad: Si A conduce a B y B conduce a C, entonces A conduce a C. A� B y B� C entonces A� C

Claves contextuales

Durante el curso de un condicionamiento instrumental, los estimulos suceden en presencia de un fondo de claves contextuales. Estas claves pueden ser visuales, auditivas u

olfatorias, y pueden proporcionar una importante fuente de control de la conducta aprendida de varias formas. Algunos experimentos demuestran que las claves

contextuales pueden controlar la conducta cuando sirven como señal para un EI o un reforzador. Ejemplo: jaula no preferida por la codorniz macho, al asociarse con

reforzamiento sexual, aumentó la preferencia del animal por esa jaula.

Ademas se demostro que cuando son solo “estimulos de fondo” porque no señalan reforzamiento, tambien pueden controlar la conducta del sujeto.


64

Relaciones condicionales.

La relacion entre dos eventos, por ejemplo, EC y EI, es una relacion binaria. En algunos casos, puede aparecer un tercer suceso, que es un modulador. Entre ellos se

establece una relacion condicional. El animal aprende que el modulador (contexto) le dice cuándo esta en funcionamiento una relacion binaria en particular.

Ejemplo: experimento de Atkins. En una caja Skinner estandar (Contexto 1) se refuerza a una paloma por picotear en una linea vertical (E+) y no se le refuerza cuando

picotea en la linea horizontal (E-). Una vez aprendido esto, se cambian las claves contextuales variando luz y y tipo de ruido en la camara (Contexto 2). Y se invierte la

contingencia, se refuerza cuando picotea en la linea horizontal y no se refuerza cuando picotea en la linea vertical. En ningun momento el experimento requeria que se

presete atencion al contexto, solo que se aprendiera un nuevo problema de discriminacion. Despues de aprender esto, se realiza una prueba de generalizacion donde la

paloma responde mas a la linea vertical cuando esta en el contexto 1, y responde mas a la linea horizontal cuando esta en el conteto 2. El contexto activo la memoria de

reforzamiento, se asociaba el contexto a una contingencia E+/E- y no a un estimulo en particular.

En el entrenamiento instrumental por discriminacion tambien se da esta relacion condicional, los estimulos discriminativos E+ y E- son moduladores que señalan la relacion

entre respuesta y reforzador.

El concepto fundamental del control condicional es que un evento señala la relacion entre otros dos. En el caso de un condicionamiento pavloviano, ademas del EC y el Ei,

se deberia introducir un tercer elemento que nos indique la relacion entre ellos. Ejemplo: EI es comida, EC es luz naranja en la tecla de respuesta, se puede introducir como

modulador un estimulo auditivo , en presencia del cual la luz es seguida por comida. Y en su ausencia no habra comida.

Los experimentos demostraron que introducir un modulador, facilita la respuesta al EC, aunque en sí mismo no elicita respuestas, sí aumenta la habilidad del EC para

elicitar la respuesta. El modulador adquiere control condicional sobre la efectividad del EC para elicitar la respuesta. Este proceso se denomina facilitacion, el modulador es

el facilitador. Tambien se denomina establecimiento de la ocasión, pq el modulador (el establecedor de la ocasión) establece la ocasión para los emparejamientos EC-EI.


65

En el condicionamiento pavloviano inhibitorio tambien se incluye una relacion condicional. Este proceso se desarrolla si un estimulo señala la ausencia de EI. En ejemplo

anterior, el tono apareceria en los ensayos no reforzados. Por esto se sugiere que la inhibicion condicionada es el opuesto conceptual al establecimiento de la ocasión, mas

que el opuesto a la excitación condcionada. Diversos estudios demuestran que los moduladores tienen sus efectos mediante algun mecanismo distinto del de la excitación:

1) un estimulo puede establecer la ocasión para la respuesta condicionada elicitada por otra clave sin elicitar por si mismo una respuesta condcionada visible, 2) condicionar

las propiedades excitatorias simples de un estimulo no hace que éste funcione como un modulador, 3) la excitincion y las pruebas de transferencia funcionan de forma

diferente en ambos procesos. (pregunta foro)

Para que un estimulo sirva como modulador, el sujeto lo tiene que considerar como un elemento independiente, y no como un estimulo compuesto. Por ejemplo, si el

sonida va a servir como señal de que la luz se emparejara con comida, el sonido y la luz tienen que ser tratados como independientes y no como una clave configuracional

combinada. Para ello, los investigadores presentan los elemento uno tras otro, y no simultaneamente. Se denomina compuesto serial y consiste en que el establecedor de

la ocasión es presentado primero, luego el Ec y luego el reforzamiento.

TEMA 9: EXTINCION DE LA CONDCUTA CONDICIONADA.

La adquisicion de la conducta condicionada implica procedimientos en los que se presenta una consecuencia reforzante. En condicionamiento pavloviano, la consecuencia

es el EI y se presenta como consecuencia de un EC. En condicionamiento instrumental, la consecuencia reforzante es una consecuencia de la respuesta instrumental. La

extincion implica la omision de EI o reforzador. O sea que incluye presentaciones repetidas del estimulo condicionado por si solo en condicionamiento pavloviano, y la

ausencia del reforzador en condicionamiento instrumental. El resultado tipico de la extincion es que disminuye el nivel de respuesta, por esto se ha creido que era el

proceso opuesto a la adquisicion, pero esto es incorrecto. La extincion no revierte los efectos de la adquisicion sino que implica el aprendizaje de algo nuevo que se

superpone sobre lo que se habia aprendido antes.

La extincion se diferencia del olvido, ya que en este ultimo caso, la respuesta disminuye como consecuencia del paso del tiempo. Y en la extincion disminuye como

consecuencia de la omision del EI o el reforzador.

El efecto mas obvio de la extincion es una disminucion en las respuestas. El segundo efecto es que aumenta la variabilidad de la respuesta. Pero no altera la estructura de la

conducta. Ademas de los efectos conductuales citados, se pueden producir fuertes efectos emocionales. La reaccion emocional inducida por la falta de un reforzador

esperado se denomina frustracion. Y esta provoca energia a la conducta. En ciertas ocasiones, provoca reacciones agresivas.

EXTINCION Y APRENDIZAJE ORIGINAL

La evidencia de que la extincion no elimina lo que se aprendio originalmente, se ha obtenido a traves de estudios sobre los siguientes procesos:

1. Recuperacion espontanea: la extincion se disipa con el tiempo. Por tanto, la respuesta condicionada original vuelve a aparecer si el sujeot se pone a prueba tras una

demora que siga el procedimiento de extincion. La introduccion de un periodo de descanso tras la extincion, produce una recuperacion sustancial en la respuesta.


66

2. Renovacion del condicionmiento excitatorio original: este fenomeno fue identificado por Bouton y sus colegas. Se refiere a la recuperacion de la ejecucion propia de la

adquisicion que se da, cuando las claves contextuales que estaban presentes en la extincion, cambian. Se puede cambiar al contexto de adquisicion original o a un contexto

neutral. Este fenomeno es especialmente problemático para la terapia de la conducta porque significa que miedos irracionales que se extinguieron en la consulta pueden

retornar con facilidad cuando el sujeto se traslada a otro contexto.

Una explicacion del efecto de renovacion es que se debe a las propiedades excitatorias condicionadas al contexto de la renovacion. Pero debido a la experimentacion, esta

explicacion ha quedado desechada.

La mayor parte de la evidencia indica que el efecto de renovacion se produce porque la memoria de la extincion es especifica de las claves que estaban presentes durante la

fase de extincion. Por esto, un cambio en el contexto de la extincion dificulta la recuperacion de la memoria de extincion, con el resultado de que se pierde la ejecucion

propia de la extincion. Esto restaura la conducta la conducta caracteristica de la adquisicion original porque se supone que la ejecucion propia de la adqusicion original se

generaliza de un contexto a otro mas facilmente que la ejecucion propia de la extincion.

La adquisicion de la conducta original se ve menos afectada por un cambio contextual que la ejecucion propia de la extincion. Bouton sugirio que se debe a que las claves

contextuales sirven para eliminar la ambigüedad del significado del EC.

Cuando un EC adquiere condicionamiento excitatoria y luego se extingue, tiene un significado ambiguo, ya que podria indicar tanto cercania (adquisicion) como ausencia

(extincion) del EI. Esta ambigüedad permite al EC ponerse bajo control contextual de manera mas facil. Tras el entreanamineto de adqusicion el EC no es ambiguo ya que

solo significa una cosa por eso el EC no es susceptible de control contextual.

La renovacion implica graves problemas en terapia de conducta y se deben a que aunque un procedimiento terapeutico sea efectivo extinguiendo un miedo en la consulta,

el miedo condicionado puede volver al cambiar de contexto. Otro problema es que los efectos de condicionamiento excitatorio se suelen generalizar de un contexto a otro,

por tanto, si se adquiere un miedo en una situacion dada, es muy probable que se sufra en otros contextos. Pero si se supera el miedo en un contexto especifico, no es tan

facil que se generalice. Los problemas creados por el condicionamiento tienen efectos muchos mas amplios que las soluciones a esos problemas. Una forma de reducir el

efecto de renovacion es llevar a cabo la extincion en diferentes contextos. Ya que la ejecucion de la extincion es menos especifica del contexto si se lleva a cabo en varios


67

contextos diferentes. Otras formas de reducir este efecto es a traves del entrenamiento en inhibicion condicionada, condicionamiento diferencial, y la presentacion del EC

explicitamente emparejado con el EI.

3. Recuperacion de la ejecucion propia de la extincion: esto se puede conseguir introduciendo claves contextuales que reactiven la memoria de la extincion. Puede

restaurarse contrarrestando la recuperacion espontanea (recuperacion de la conducta original si transcurre un periodo de tiempo tras la extincion), presentando las claves

contextuales presentes en la extincion. Estas claves contrarrestan la recuperacion espontanea debido a que reactivan la memoria de la extincion. Ya que la recuperacion

espontanea se debe a un deterioro en las claves contextuales de la extincion que se da con el paso del tiempo.

4. Restablecimiento de la excitación condicionada: se refiere a la recuperacion de la respuesta excitatoria a un estimulo extinguido producida por exposiciones al estimulo

incondicionado.


68

Este fenomeno es problemático en terapia, ya que las respuestas que se extinguen con éxito durante la consulta pueden recuperarse si el sujeto se enfrenta de nuevo con

el EI. Gran cantidad de investigacion sobre el restablecimiento, indica que el condicionamiento contextual es importante, pero no porque permita la suma de la excitación,

sino porque suprime la ambigüedad de un estimulo que tiene una historia mezclada de condicionamiento y extincion. Los efectos del contexto en estimulos que tienen solo

historia de condicionamiento son muy bajos. Bouton considero al restablecimiento como una forma de de renovacion. Según esto, las claves contextuales condicionadas

proporcionan algunas de las claves contextuales para la respuesta excitatoria en circunstancias normales. Estas claves se extinguen cuando se presenta el EC por si solo

durante la extincion. El restablecimiento del EI en el contexto de prueba sirven para restaurar las propiedades excitatorias de las claves contextuales y en consecuencia,

permitir que esas claves sean mas efectivas para reactivar la memoria del condicionamiento excitatorio del EC.

5. Sensibilidad a la devaluacion del reforzador: La persistencia del aprendizaje original a pesar de la extinción puede también investigarse analizando los efectos de la

devaluación del reforzador. A traves de experimentacion, se demostro que a pesar del gran efecto de extincion en la respuesta condicionada, la manipulacion de dicha

extincion no redujo la sensibilidad de los sujetos a la devaluacion del EI, lo que indica que la asociacion EC-EI permanece intacta. Experimento realizado con

condicionamiento instrumental han fortalecido la conclusion de que la extincion no elimina las asociaciones R-C y E-C que se aprenden durante el condicionamiento.

Rescorla señalo que las asociaciones R-C una vez emparejadas con relativamente impermeables a su modificacion.

¿QUE SE APRENDE EN LA EXTINCION?

Como se ha explicado la extincion no implica desaprendizaje. Pero si las asociaciones R-C y E-C, permanecen intactas, por qué disminuye la respuesta?

Asociaciones E-R inhibitorias.

Los investigadores han demostrado que la falta de reforzamiento produce una asociacion E-R inhibitoria. Esto es , la falta de reforzamiento de una respuesta en presencia

de un estimulo especifico produce una asociacion E-R inhibitoria que sirve para suprimir la respuesta siempre y cuando esté el E presente. Esta hipotesis predice que los

efectos de la extincion seran altamente especificos del contexto en el que la respuesta fue extinguida. Una explicacion a esto es que los efectos de la extincion provocan

una reaccion frustante aversiva incondicionada y esta emocion sirve para que se deje de responder durante el curso de la extincion mediante el establecimiento de la

asociacion E-R inhibitoria. Esta afirmacion es muy controvertida, ya que las teorias convencionales consideran la inhibicion condicionada y la extincion como fenomenos

diferentes, afirmacion cada vez mas dificil de sostener.

Efectos paradojicos de la recompensa

Dado que la disminucion en la respuesta en la extincion se debe a los efectos frustantes de la ausencia inesperada de reforzamiento, se espera una extincion mas rapida

tras un entrenamiento con reforzamiento que estableciese mayores expectativas de recompensa.

El efecto de sobreentrenamiento en la extinción resulta paradójico porque representa una menor respuesta durante la extinción tras un entrenamiento con reforzamiento

más extenso. La extinción es más rápida cuando el entrenamiento incluye reforzamiento continuo. Se podria creer que un entrenamiento mas extenso deberia crear una


69

respuesta mas fuerte, que seria resistente a la extincion, pero sucede lo contrario. + entrenamiento reforzado � + expectativa de recompensa �+ frustacion en la

extincion � extincion mas rapida.

En el efecto de la magnitud del reforzamiento, la respuesta disminuye más rápido durante la extinción que sigue a un reforzamiento con un reforzador mayor. Este

fenómeno también es más evidente cuando el entrenamiento incluye reforzamiento continuo.

ADQUISICION � CORRER / SUELDO

EXTINCION � CORRER / NO SUELDO

Si “sueldo”= 1000 € la extinción es más lenta. Si el sueldo es 1 millón de € la extinción es más rápida. La frustracion es mas grande, cuando se espera una recompensa mas

grande que una mas pequeña.

En el efecto de reforzamiento parcial en la extincion (ERPE), se refiere a que ciertas caracteristicas del programa de reforzamiento pueden influir en la extincion. La

caracteristica dominante en este aspecto es si la respuesta se reforzo con un reforzamiento continuo o con un reforzamiento intermitente o parcial. La extinción es mucho

más lenta y produce menos reacciones de frustración si el programa es de reforzamiento parcial. Una explicacion de este efecto podria ser la hipotesis de la discriminacion,

que considera que la extincion es mas facil de detectar tras el reforzamiento continuo que tras el reforzamiento intermitente. Ya que al no recibirse siempre reforzamientos

despues de la respuesta, puede no notarse inmediatamente cuando los reforzadores se omiten por completo. Es más fácil detectar que ya no eres recompensado en ningún

caso cuando en el pasado te han recompensado siempre. Si el programa es intermitente, la extinción no supone un cambio tan radical con respecto a la adquisición y por

eso se sigue respondiendo. Experimentos demostraron que la persistencia de la respuesta producida por un reforzamiento parcial, no tenia su origen en la dificultad de

detectar el comienzo de la extincion. Sino que parecia que los sujetos aprendian a no rendirse ante la ausencia del reforzador. Y esta persistencia aprendida se mantiene

aun cuando se experimenta una cadena ininterrumpida de sucesos.

Hay dos teorias que responden a la pregunta de qué aprenden los sujetos durante el reforzamiento parcial que hace mas resistente sus respuestas ante los fracasos.

La teoria de la frustracion de Amsel, sosteien que la persistencia en la extincion resulta del aprendizaje de algo paradojico, es decir, continuar respondiendo cuando se

espera no ser reforzado, o se espera ser frustrado. Se aprende a responder a pesar de esperar ausencia de reforzamiento. Para ello se requiere gran experiencia en este

tipo de reforzamiento. El animal piensa que cuando está frustrado es precisamente cuando le van a recompensar. Por eso insiste y sigue respondiendo en la extinción. Se

aprende a esperar tanto recompensa como no recompensa. Al principio del entrenamiento la no recompensa desalienta la respuesta, pero a medida que el entrenamiento

continua, el conflicto se resuelve a favor de responder. El reforzamiento intermitente da como resultado el aprendizaje de realizar la respuesta instrumental como reaccion

a la expectativa de ausencia de recompensa, ya que en muchos casos la recompensa no es esperada, y sí es recibida. En el reforzamiento continuo no existe nada que

motive al sujeto a responder, cuando esperan ausencia de recompensa, por esto, no produce persistencia en la extincion.

La teoria secuencial de Capaldi, es similar a la anterior, pero no basada en la reacción emocional sino en la memoria. Se asocia la memoria de NO haber sido recompensado

con la expectativa de recibir la recompensa. Por eso responde durante la extinción de un programa de reforzamiento intermitente. Asume que los sujetos pueden recordar

si fueron reforzados por realizar una respuesta instrumental en el pasado reciente, recuerdos los ensayos recompensados y los que no. Se asume que en el reforzamiento

intermitente la memoria de la ausencia de recompensa llega a ser la clave para la realizacion de la respuesta instrumental. Esto es lo que produce la persistencia en la

respuesta. La forma exacta en que esto ocurre depende de la secuencia de ensayos reforzados y ensayos no reforzados. El animal es reforzado por responder durante la


70

memoria de un ensayo no reforzado. Con suficientes experiencias de este tipo, el sujeto aprende a responder siempre y cuando recuerde no haber sido reforzado en los

ensayos precedentes.

RESISTENCIA AL CAMBIO Y MOMENTO CONDUCTUAL

Otra forma de considerar la persistencia de la respuesta en la extincion es que representa la resistencia al cambio en las contingencias de reforzamiento que sucede cuando

se introduce la extinción.Nevin propone el concepto de momento conductual: cuanto mayor sea el momento, más difícil de interrumpir es la conducta. El momento

conductual esta directamente relacionado con la tasa de reforzamiento, ya que una tasa mas alta de reforzamiento produce una conducta que tiene un mayor momento y

que es mas susceptible a la interrupcion. Y no esta relacionado con la tasa de respuesta. Estudios demuestran que programas que proporcionan tasas similares de

reforzamietno pero tasas diferentes de respuesta, tienen similares momentos o resistencias al cambio.

aprendizaje completos valeria de simone temas 1 9

Documents