tema 3: condicionamiento instrumental: entrenamiento de recompensa

29
Tema 3: Condicionamiento instrumental: entrenamiento de recompensa Prof. Pablo Adarraga [email protected]

Upload: kennan-sosa

Post on 30-Dec-2015

41 views

Category:

Documents


0 download

DESCRIPTION

Tema 3: Condicionamiento instrumental: entrenamiento de recompensa. Prof. Pablo Adarraga [email protected]. Concepto y tipos de refuerzo positivo. Los R+ pueden ser…. Estímulos concretos, simples (p.e., un trocito de comida, una sonrisa) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Tema 3: Condicionamiento instrumental: entrenamiento de recompensa

Prof. Pablo [email protected]

Page 2: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Concepto y tipos de refuerzo positivo

Page 3: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Los R+ pueden ser…

• Estímulos concretos, simples (p.e., un trocito de comida, una sonrisa)

• Configuraciones estimulares complejas (p.e. un amplio conjunto de signos de aprobación que incluya gestos, palabras y tonos de voz)

• Posibilidades conductuales: p.e., permiso para usar la consola durante un tiempo, dejar salir al perro al jardín.

Page 4: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Principio de Premack

• Conductas de alta probabilidad: las que espontáneamente se hacen a menudo.

• Conductas de baja probabilidad: las que espontáneamente se hacen raras veces o nunca.

• Premack: cuando una CBP va seguida a menudo de una CAP, la primera resulta reforzada (aumenta su probabilidad).

• El Pº de Premack afirma que ésta es precisamente la naturaleza del refuerzo.

Page 5: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Reforzadores primarios y secundarios

• Son reforzadores primarios los que funcionan de forma innata para todos los miembros normales de una especie.

• Son reforzadores secundarios aquellos cuya capacidad de reforzar no es innata, sino que se debe a aprendizajes previos del organismo. – Condicionados: han adquirido su poder por

condicionamiento clásico, asociándose a un primario: el clicker, el ruido de la máquina expendedora…

– No condicionados: dinero, victoria en juegos, etc.

Page 6: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

El clicker

• Es el reforzador secundario por excelencia en el entrenamiento de muchos animales.

• Permite señalar con precisión el momento en que el organismo “se ha ganado el reforzador” con su conducta.

Page 7: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

R+ en humanos

• Por las características de nuestra especie, hay algunos reforzadores que tienden a funcionar bien casi siempre. Por ejemplo:

– Atención por parte de otros. Gestos de comprensión, interés, etc.

– Signos de aprecio, valoración, prestigio, jerarquía.

– Logro, victoria, triunfo, éxito…

Page 8: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Factores del entrenamiento de recompensa

Page 9: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Factores del entrenamiento de recompensa

Factores: variables (independientes) de las que depende su eficacia

Hay muchos; en términos generales los principales son:

• Magnitud de la recompensa

• Demora de la recompensa

• Impulso

y el más importante:

• Programa de refuerzo

Page 10: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Magnitud del reforzador

• Aumentos en la cantidad o calidad del reforzador mejoran la actuación del organismo en la situación de adquisición

• Sin embargo, las recompensas cuantiosas producen conductas menos estables, que se extinguen más fácilmente.

Estribillo:El buen psicólogo es

tacañorácanocutre

con los reforzadores positivos.

Page 11: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Magnitud del reforzador

Atención a los efectos de contraste:

• Reducir súbitamente la magnitud de la recompensa durante la adquisición empeora la actuación del organismo, y puede perturbar el aprendizaje

• Aumentarla mejora la actuación, y a veces puede mejorar también un poco el aprendizaje.

Page 12: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Demora de la recompensa

Es el intervalo entre la R y el R+

• Cuanto más breve, mejor.

• A partir de una cierta demora (pocos segundos) ya no se produce condicionamiento

• Una vez que el organismo emite la R, tenemos una breve ventana para reforzarla

• Se puede alargar mucho mediante secundarios encadenados.

Page 13: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Demora de la recompensa

Estribillo:

El refuerzo YA

Page 14: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Impulso

Es el estado motivacional del organismo respecto a aquello que usamos como R+

• Por ejemplo, no es probable que funcionen recompensas alimentarias con un animal saciado.

• En el laboratorio se operativiza en términos de deprivación: gato 12 horas sin beber, rata al 80% de su peso…

• No confundir con motivadores típicamente humanos, como los incentivos, salarios, objetivos, metas vitales, etc.

• En humanos: muy importante asegurarlo, para no emplear “recompensas equivocadas”.

Page 15: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas de refuerzo

Page 16: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Refuerzo continuo y refuerzo parcial

Refuerzo continuo: • Hay contingencia perfecta entre R y R+ • Es decir, siempre que se da la R se obtiene recompensa• Es fácil ver que esto es un caso muy particular• En la vida real no suele ocurrir mucho• No es ni mucho menos la pauta de refuerzo más eficaz

Refuerzo parcial:• La contingencia entre R y R+ no es perfecta• No siempre que se da la R se obtiene recompensa• Aquí son posibles infinidad de pautas distintas (programas)• Más realista, y a menudo más eficaz

Page 17: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programa de refuerzo: concepto

Es una regla que especifica la pauta con que se administran los refuerzos según responda el organismo.

Por ejemplo:

– Dar recompensa sólo a las respuestas impares (primera, tercera, quinta, etc.)

– Recompensar sólo las conductas que se mantengan al menos dos minutos sin interrupción

– Dar la recompensa sólo a las respuestas que se emiten transcurridos 10 segundos o más desde la anterior.

– Etc. etc.

Page 18: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programa de refuerzo: concepto

En sentido estricto, un programa de refuerzo es una regla sin ambigüedad ninguna, totalmente precisa. Por ejemplo:

– Dar recompensa sólo a las respuestas impares (primera, tercera, quinta, etc.) es un programa de refuerzo.

– Dar recompensa a la mitad de las respuestas no lo es (resulta impreciso: hay muchas maneras distintas de hacerlo).

Este sentido estricto es muy importante en laboratorio; no tanto en la clínica o el mundo natural.

Y en efecto, el mundo natural está lleno de programas de refuerzo.

Page 19: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programa de refuerzo: tipos

Hay infinidad. Sólo veremos algunos de los más importantes

Tipos generales:

– Básicos o simples: se refieren a una sola R, y exigen una condición simple para administrar la recompensa

– Complejos: Son combinaciones de los anteriores: una sola R, pero una exigencia compuesta para dar recompensa.

– Concurrentes: se refieren a dos o más Rs alternativas en la misma situación.

– Otros: programas de duración, de tasas bajas, etc.

Page 20: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas básicos

Hay cuatro tipos:

– Razón fija

– Razón variable

– Intervalo fijo

– Intervalo variable

Page 21: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas básicos: Razón fija

•Se recompensa cada enésima R emitida por el organismo: la quinta, la novena, la vigésima…

•Es decir, se exige al organismo un número fijo de Rs. para darle cada recompensa

•Notación: RF-5, RF-9, RF-20…

Tiempo

Programa RF-5

Ultimo R+ recibido

Nuevo R+

5ª respuesta

Page 22: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas básicos: Razón variable

•Es como RF, pero se exige al organismo un número variable de Rs. para darle cada recompensa.

•Por ejemplo, en un RV-5:– Damos la primera recompensa a la 7ª R.– Segunda recompensa a la 3ª R.– Tercera recompensa a la 6ª– Etc.

•Y globalmente, la media aritmética de las recompensas exigidas es 5

•Notación: RV-5, RV-9, RV-20…•Los programas RV, por tanto, mantienen siempre cierta

incertidumbre sobre “cuándo toca” recibir R+•Son más “naturales que los RF.

Page 23: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas básicos: Intervalo fijo

•Se recompensa la primera R emitida por el organismo una vez transcurrido un intervalo desde la última recompensa administrada

•Tras cada recompensa hay un “tiempo muerto” •Notación: IF-5”, IF-30”, IF-90”…

Tiempo

Programa IF-10”

Ultimo R+ recibido

Nuevo R+

Rs no reforzadas (dentro del intervalo)

1ª R tras el fin del intervalo

Intervalo de 10”

Page 24: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas básicos: Intervalo variable

•Es como IF, pero la duración del intervalo es diferente para cada recompensa (oscilando en torno a un promedio).

•Por ejemplo, en un IV-10” podría suceder lo siguiente:– El intervalo “muerto” tras la primera recompensa dura 5”.– El intervalo tras la segunda recompensa dura 14”.– El intervalo tras la tercera recompensa dura 6”– Etc.

•Y globalmente, la media aritmética de los intervalos aplicados es de 10”

• Notación: IV-5”, IV-25”, IV-120”…•Los programas IV, por tanto, mantienen cierta incertidumbre

sobre cuándo la recompensa vuelve a estar disponible•Son más “naturales que los IF.

Page 25: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Razón fija: efectos en la R.

•Producen una tasa de respuesta (TR) alta, tanto más alta cuanto mayor sea la razón.

•La respuesta es tanto más difícil de extinguir cuanto mayor sea la razón (RF-1 se extingue muy fácilmente)

•Asimismo, la TR resultante es bastante estable (constante)

•Esa estabilidad se reduce cuando la tasa es muy alta: aparecen las pausas post-reforzamiento.

•Pausas post-reforzamiento: el organismo detiene sus respuestas transitoriamente justo después de recibir la recompensa (parece como si se tomara un descanso).

Page 26: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Razón variable: efectos en la R.

•TR muy alta (incluso más que con RF) y tanto más alta cuanto mayor sea la razón.

•Se obtiene una R muy difícil de extinguir, llegando a cronificarse.

•TR muy estable (constante)

•No aparecen pausas post-reforzamiento, salvo en valores altísimos, y a veces ni así.

Page 27: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Intervalo fijo: efectos en la R.

•TR no muy alta y tanto más baja cuanto mayor sea el valor del intervalo.

•Con adquisiciones prolongadas, aparece el efecto de festoneado.

•Efecto de festoneado: El organismo aprende a concentrar todas sus respuestas cerca del fin del intervalo

•Es como si le hubiera “cogido el tranquillo” al programa: justo después de recibir refuerzo no vale la pena responder, pero cuando el intervalo está cerca de su fin es muy probable que una R reciba recompensa.

Page 28: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Intervalo variable: efectos en la R.

•TR no muy alta y tanto más baja cuanto mayor sea el valor del intervalo.

•TR muy estable (constante): sin variaciones locales sistemáticas.

•No aparece efecto de festoneado: El programa no tiene un “ritmo” temporal que el organismo pueda aprender y aprovechar.

•Muy utilizados para la implantación de líneas base conductuales.

Page 29: Tema 3:  Condicionamiento instrumental: entrenamiento de recompensa

Programas básicos: efectos generales

•Los programas de razón dan TRs altas

•Los programas variables dan TRs estables, constantes.

•Estos resultados son muy consistentes entre especies (incluida la nuestra).