Condicionamiento operante

La caja de Skinner - el comportamiento se moldea por sus consecuencias

En la década de 1930, B.F. Skinner estableció los principios básicos del condicionamiento operante utilizando un aparato experimental que más tarde se conocería como «caja de Skinner». Cuando una rata dentro de la caja presionaba una palanca y obtenía comida, aprendía rápidamente la conducta de presionar la palanca. Skinner formuló este proceso como «las consecuencias de un comportamiento modifican la probabilidad futura de que ese comportamiento ocurra». Mientras que el condicionamiento clásico de Pavlov trata la asociación pasiva entre estímulo y respuesta, el condicionamiento operante describe el proceso por el cual el organismo actúa activamente sobre el entorno y aprende de las consecuencias. El conductismo radical de Skinner eliminó la explicación de estados psicológicos internos, pero el principio básico de que la frecuencia del comportamiento es controlada por sus consecuencias permanece como un hecho empírico inquebrantable incluso en la era de la psicología cognitiva y la neurociencia.

Las 4 contingencias - combinaciones de refuerzo y castigo

El núcleo del condicionamiento operante es un marco que clasifica la relación entre comportamiento y consecuencias en 4 contingencias. El refuerzo positivo es cuando un estímulo agradable se añade tras el comportamiento y este aumenta (ejemplo: recibir elogios en el trabajo y aumentar la motivación). El refuerzo negativo es cuando un estímulo aversivo se elimina tras el comportamiento y este aumenta (ejemplo: tomar un analgésico y que desaparezca el dolor, por lo que se vuelve a tomar). El castigo positivo es cuando un estímulo aversivo se añade tras el comportamiento y este disminuye (ejemplo: recibir una multa por exceso de velocidad). El castigo negativo es cuando un estímulo agradable se retira tras el comportamiento y este disminuye (ejemplo: que te confisquen la consola por llegar tarde a casa). En la práctica, es importante saber que el castigo suprime temporalmente el comportamiento pero no enseña una conducta alternativa, por lo que el refuerzo es más eficaz para el cambio conductual a largo plazo.

Programas de refuerzo - por qué las tragaperras son adictivas

Una de las contribuciones más prácticas de Skinner es la investigación sobre los programas de refuerzo. Descubrió que el refuerzo intermitente (parcial) genera mayor resistencia a la extinción que el refuerzo continuo (cada vez). El refuerzo parcial se clasifica en 4 programas: razón fija (refuerzo cada número fijo de respuestas), razón variable (refuerzo tras un número promedio de respuestas, pero diferente cada vez), intervalo fijo (refuerzo tras un tiempo fijo) e intervalo variable (refuerzo tras un tiempo promedio). De estos, el programa de razón variable produce la tasa de respuesta más alta y la mayor resistencia a la extinción. Las tragaperras y los mecanismos de gacha mantienen la expectativa de «quizá la próxima vez gane» precisamente por este principio de refuerzo de razón variable. Las situaciones en las que la recompensa llega en momentos impredecibles son las que mantienen el comportamiento con mayor potencia.

Redes sociales y refuerzo de razón variable - la caja de Skinner de la era digital

Las empresas tecnológicas modernas aplican a gran escala los principios que Skinner descubrió en el laboratorio. El sistema de notificaciones de las redes sociales es un ejemplo típico de refuerzo de razón variable. Los «me gusta» y comentarios a las publicaciones llegan en momentos impredecibles, y los usuarios, como las ratas en la caja de Skinner, ven reforzada la conducta de comprobar repetidamente la aplicación. Tristan Harris, exeticista de diseño de Google, señaló que los smartphones están diseñados como «tragaperras de bolsillo». La acción de deslizar hacia abajo para actualizar (pull-to-refresh) es funcionalmente equivalente a la palanca de una tragaperras, y la incertidumbre sobre si aparecerá contenido nuevo impulsa el comportamiento. Esta comprensión constituye el punto de partida para rediseñar conscientemente la relación con los dispositivos digitales. Intervenciones como desactivar las notificaciones o fijar horarios de consulta funcionan como estrategias que transforman el programa de razón variable en uno de intervalo fijo, debilitando la conducta impulsiva de comprobación.

Términos relacionados

Formación de hábitos

El proceso por el cual un comportamiento específico llega a ejecutarse automáticamente sin esfuerzo consciente. Los hábitos son dispositivos de ahorro de fuerza de voluntad: el cerebro automatiza patrones repetitivos para conservar recursos cognitivos.

Sistema de recompensa

Red de circuitos neuronales del cerebro implicada en el placer y la motivación. Su núcleo lo constituye la vía dopaminérgica que va desde el área tegmental ventral hasta el núcleo accumbens y la corteza prefrontal, impulsando el refuerzo de conductas y la formación de hábitos.

Dopamina

Aunque suele asociarse con la recompensa y el placer, en realidad es un neurotransmisor que regula la «expectativa» y la «motivación». Se libera en mayor cantidad no cuando se obtiene algo, sino cuando se percibe que está a punto de obtenerse.

Zona de confort

Rango de comportamiento psicológicamente seguro en el que se puede estar sin experimentar ansiedad ni estrés. Se considera que el crecimiento requiere ampliar gradualmente esta zona.

La caja de Skinner - el comportamiento se moldea por sus consecuencias

Las 4 contingencias - combinaciones de refuerzo y castigo

Programas de refuerzo - por qué las tragaperras son adictivas

Redes sociales y refuerzo de razón variable - la caja de Skinner de la era digital

Términos relacionados

Formación de hábitos

Sistema de recompensa

Dopamina

Zona de confort

Artículos relacionados

Cómo convertir los reveses en aprendizajes

Por qué procrastinamos - No es pereza, es un problema de regulación emocional

Cómo crear tu propia filosofía de vida - Construir un criterio firme de decisión

Por qué ayudar a los demás te sana - Psicología y práctica del comportamiento altruista