Le renforcement partiel, contrairement au renforcement continu, n’est renforcé qu’à certains intervalles ou ratio de temps, au lieu de renforcer le comportement à chaque fois. Cette forme de programmation du renforcement après un certain nombre de réponses correctes ou un certain intervalle de temps est également appelée renforcement intermittent.
Ce type de renforcement est considéré comme plus puissant pour maintenir ou façonner le comportement. En outre, les comportements acquis à partir de cette forme d’ordonnancement se sont avérés plus résistants à l’extinction.
La définition du renforcement partiel comme un renforcement incohérent ou aléatoire des réponses pourrait compliquer la question du point de vue de l’apprenant. Les chercheurs ont classé quatre schémas de base de renforcement partiel qui tentent de couvrir divers types d’intervalles et de rapports entre les renforcements.
1. Programme à intervalle fixe
Dans un programme à intervalle fixe (FI), disons une minute, doit s’écouler entre la fois précédente et la fois suivante où le renforcement est rendu disponible pour les réponses correctes. Le nombre de réponses n’est pas pertinent tout au long de la période de temps. Cela entraîne un changement dans le taux de comportement.
Le taux de réponse est généralement plus lent immédiatement après un renforcement, mais augmente régulièrement à mesure que le moment du prochain renforcement se rapproche.
Exemple : Quelqu’un qui est payé à l’heure, quelle que soit la quantité de son travail.
2. Programme à intervalle variable
Dans un programme à intervalle variable (VI), on laisse s’écouler un temps variable entre la mise à disposition du renforcement. Le renforcement dépend de l’écoulement du temps, mais l’intervalle varie de façon aléatoire. Chaque intervalle peut varier, par exemple, de une à cinq minutes, ou de deux à quatre minutes. Le sujet est incapable de découvrir quand le renforcement viendra ; par conséquent, le taux de réponses est relativement stable.
Exemple : Un pêcheur attend sur le rivage pendant un certain temps, et il attrape très probablement le même nombre de poissons chaque jour, mais l’intervalle entre les prises n’est pas le même. Si le poisson est considéré comme un renforcement, alors il est incohérent.
3. Programme à ratio fixe
Dans un programme à ratio fixe (FR), le renforcement est fourni après un nombre fixe de réponses correctes. Le renforcement est déterminé par le nombre de réponses correctes. Par exemple, considérons que le rat affamé dans la boîte de Skinner doit appuyer cinq fois sur le levier avant qu’une boulette de nourriture n’apparaisse. Par conséquent, le renforcement suit chaque cinquième réponse. Le rapport est le même pour le renforcement à présenter.
Exemple : Une vendeuse reçoit un renforcement après chaque paire de chaussures qu’elle vend. La qualité n’a pas d’importance car elle est payée plus cher pour un nombre plus élevé de chaussures vendues. La quantité de production est maximisée dans un programme à rapport fixe.
4. Programme à rapport de valeur
Dans un programme à rapport de valeur (RV), le renforcement est fourni après un nombre variable de réponses correctes. Dans un programme à rapport variable 10:1, le nombre moyen de réponses correctes à donner avant qu’une réponse correcte ultérieure ne soit renforcée est de 10, mais le rapport entre les réponses correctes et le renforcement peut varier de, disons, 1:1 à 20:1 sur une base aléatoire. En général, le sujet ne sait pas quand la récompense peut arriver. Par conséquent, la réponse vient à un rythme élevé et régulier.
Exemple : Un exemple pratique de programme à ratio variable est la façon dont une personne continue à vérifier sa publication Facebook en comptant le nombre de likes de temps en temps.
Évaluation critique
Les différents programmes ont différents avantages. Les horaires de rapport sont connus pour susciter des taux de réponses plus élevés que les horaires d’intervalle en raison de leur prévisibilité.
Par exemple, considérez un ouvrier d’usine payé par article qu’il fabrique. Cela motiverait le travailleur à fabriquer davantage.
Les horaires variables sont moins prévisibles, ils ont donc tendance à résister à l’extinction et la poursuite du comportement est auto-encouragée. Le jeu et la pêche sont considérés comme des exemples classiques d’horaires variables. Malgré leurs retours infructueux, tous deux ont l’espoir qu’une traction de plus sur la machine à sous, ou une heure de patience de plus fera tourner leur chance.
Parce que le renforcement partiel rend le comportement résilient à l’extinction, il est souvent commuté – pour avoir enseigné un nouveau comportement en utilisant le Programme de Renforcement Continu.
.