En el condicionamiento operante

El ensayo y error.
La ley del efecto. En el condicionamiento operante la causalidad es circular, el refuerzo aparece después de la RC; esto supone un nivel superior en el aprendizaje.
Thorndike señaló que lo que se producía en el condicionamiento era una conexión a nivel neural entre un estímulo y una respuesta (E-R), en lugar de conexión entre estímulos.
Después, Thorndike, enunció la ley del efecto: cuanto mayor es la satisfacción o desagrado que acompaña a la conducta del sujeto, mayor será el fortalecimiento o debilitación del vínculo (conexión E-R).
Para Thorndike es reforzar la conexión.
Para Skinner es aumentar la probabilidad de que el organismo emita la respuesta. Según éste, no se refuerza la conexión E-R, sino la respuesta operante; así transforma la ley del efecto en la ley de refuerzo.
Condicionamiento instrumental o condicionamiento operante. Se llama condicionamiento instrumental porque convierte la respuesta (conducta) en un instrumento para conseguir una consecuencia, ya que la respuesta no es elicitada sino emitida voluntariamente.
Thorndike utilizó la técnica de ensayos discretos (emitir una sola respuesta en cada ensayo).
Skinner ideó la técnica de operante libre (emitir cuantas respuestas desee en cada ensayo), permitiendo estudiar una conducta de una manera continua, a través de registros acumulativos, facilitando la división de la misma en unidades significativas.
De este modo, las respuestas operantes se llegaron a utilizar habitualmente en el estudio del condicionamiento instrumental, y éste pasó a denominarse condicionamiento operante.
Reforzador, refuerzo y reforzamiento. Reforzador: estímulo apetitivo o premio que aparece, o estímulo aversivo que desaparece cuando se ejecuta una conducta operante.
Refuerzo: es la situación o procedimiento experimental de presentar o hacer desaparecer un reforzador si se emite una conducta determinada. Puede ser de dos tipos:
1. Refuerzo positivo: si se da una respuesta aparece el reforzador (contingencia positiva).
2. Refuerzo negativo: si se da una respuesta desaparece el reforzador (contingencia negativa).
Reforzamiento: proceso interior de fortalecer la conexión entre un estímulo y la respuesta.
Contigüidad y contingencia. Dos sucesos son contigüos cuando ocurren simultáneamente o en rápida sucesión dentro de un determinado período temporal.
Dos sucesos son contingentes cuando ocurren conjuntamente según una cierta probabilidad.
El paradigma del condicionamiento operante. Es conocido como paradigma E-R, aprendizaje por relación de un estímulo con una respuesta.
En el condicionamiento operante sólo se pueden realizar dos acciones:
1. Reforzar: aumentar la probabilidad de que se vuelva a emitir una respuesta.
2. Castigar: disminuir la probabilidad de que se vuelva a emitir una respuesta.
Para determinar los modelos o subparadigmas del condicionamiento operante, hay que conjugar dos variables:
1. Contingencia respuesta-reforzador: positiva o negativa.
2. Naturaliza del reforzador: agradable (premio) o aversivo (nocivo).
Por lo anterior se establecen cuatro modelos o subparadigmas del condicionamiento:
1. Condicionamiento de recompensa: Es el modelo más tradicional. Su función es aumentar el vigor de una respuesta por ser ésta contingente con un premio.
2. Castigo: Su función es la desaparición de una respuesta por ser ésta contingente con el estímulo aversivo.
3. Condicionamiento de evitación: presenta dos modalidades:
a) Evitación: la emisión de la respuesta hace que no aparezca el estímulo aversivo.
b) Escape: la emisión de la respuesta hace que desaparezca el estímulo aversivo.
4. Condicionamiento de omisión (castigo negativo): La emisión de la respuesta es contingente con la ausencia del premio. Su función es la debilitación o desaparición de la respuesta.
Variables en el condicionamiento operante. Reforzador: es cualquier estímulo apetitivo o aversivo que hace aumentar la probabilidad de emisión de una respuesta o el vigor de la misma. Skinner lo define en función de su efecto sobre la respuesta contigua anterior.
Respuesta: es una conducta espontánea y activa, no una conducta respondiente y pasiva. El concepto de preparación de Seligman indica que la conducta que tiene preparación filogenética se condiciona con mucha mayor facilidad.
Estímulo discriminativo: es una clave explícita que indica cuando está o no disponible el refuerzo. No provoca la respuesta, sólo informa de ella.
Tiempo de privación: es la variable más utilizada para motivar al animal, siendo necesaria para que un estímulo reforzante cumpla con su condición de ser refuerzo.
La medida de la respuesta en el condicionamiento operante. La medida de la respuesta se realiza fundamentalmente por dos parámetros:
a) Tasa de respuestas en un período de tiempo dado.
b) Latencia de la respuesta.
Existen otros parámetros: número de ensayos, intervalo entre ensayos, magnitud y demora del refuerzo.
Programas de refuerzo o castigo. Son una pauta para presentar el premio o el estímulo aversivo. Los más tradicionales son:
Programa de razón fija (RF): se refuerza la primera respuesta después de emitir un número predeterminado de ellas.
Programa de razón variable (RV): se refuerza según un índice de razón, aunque éste no es fijo, sino una serie aleatoria con una razón media definida.
Programa de intervalo fijo (IF): se refuerza la primera respuesta que ocurre después de un intervalo fijo de tiempo transcurrido a partir del último refuerzo suministrado.
Programa de intervalo variable (IV): se refuerza la primera respuesta después de haber transcurrido un tiempo, cuya duración es aleatoria (variable), siendo su valor medio constante.
Programas de refuerzo concurrentes y programas de refuerzo encadenados. El estudio experimental de los programas de refuerzo ante situaciones complejas se realiza a través de la conducta de elección.
Se entiende por conducta de elección aquella en que deja al animal elegir entre varias opciones, que llevan cada una a un programa de refuerzo por un tiempo determinado; una vez finalizado éste, se le permite una nueva elección.
Se han utilizado, fundamentalmente, dos programas de refuerzo ante situaciones complejas:
1. Programas encadenados: se presentan al animal varias alternativas, cuando escoge una, la conducta del organismo queda encadenada durante un tiempo a un programa de refuerzo.
2. Programas concurrentes: se permite al organismo escoger entre alternativas, siempre presentes, estando cada una de ellas sustentada por un programa de refuerzo. Los programas concurrentes permiten estudiar la elección más frecuente que hace el animal y la influencia que tiene el programa en la elección.
Para la ley de la igualación de Herrnstein, la conducta de elección se realiza según la tasa relativa de refuerzos. Para explicar esta ley, existen dos hipótesis:
1. La hipótesis de la optimización del refuerzo: que puede ser de dos maneras:
a) Optimización global (molar): se escoge distribuyendo las respuestas entre varias alternativas, de tal manera que globalmente, en un período de tiempo, se obtenga la mayor cantidad de refuerzo.
b) Opmitización molecular (momentánea): se escoge siempre la alternativa con más probabilidades de ser reforzada en ese momento.
2. La hipótesis de la mejora: lo que hace que el animal cambie de alternativa entre una conducta y otra es la mejora de la tasa puntual de refuerzo que están recibiendo. Esta hipótesis sí explicaría el mecanismo que subyace a la ley de la igualación.
Alguna consideración sobre las teorías de refuerzo. Entre las teorías sobre el refuerzo, las más importantes son:
a) La teoría de la reducción del impulso (Hull): hace referencia a la motivación señalando que la consecución de la comida resude su impulso de hambre.
b) La teoría de la expectativa (Bolles): se centra en el incentivo que produce la mayor cantidad de comida o su mejor calidad en el animal; así explica que el refuerzo refuerce.
c) La teoría de la prepotencia de la respuesta (Premack): sostiene que el reforzador es una respuesta que tiene más probabilidad de ser emitida que la respuesta reforzable.