Das Kefk Network Wiki befindet sich im Testbetrieb.
Verstärker (Psychologie)
Aus Kefk.
Ein Verstärker ist ein Reiz, welcher als Konsequenz eines bestimmten Verhaltens auftritt. Der Reiz führt dann - vereinfacht gesagt -zu einer Erhöhung der Auftretenswahrscheinlichkeit dieses Verhalten bzw. zu einer Verstärkung der Reaktionsfrequenz. Es kann aber noch zwischen primären und sekundären Verstärkern unterschieden werden. Während primäre Verstärker mit physiologischen Bedürfnisdispositionen, wie z.B. Hunger verbunden sind, koppeln sich sekundäre Verstärker durch eine Art funktioneller Autonomie ab. Alle sekundären Verstärker sind also durch klassische Konditionierung aus primären Verstärker entstanden und erlangen ihre Bedeutung durch Kontingenz mit diesen Verstärkern (Geld und Nahrung). Das Premack-Prinzip besagt, daß für zwei Verhaltensweisen einer Person, deren spontane Auftrittswahrscheinlichkeit verschieden ist, gilt: das wahrscheinlichere Verhalten kann als Verstärker für das weniger wahrscheinliche fungieren.
Was macht aber einen Reiz zu einem Verstärker? Welche Eigenschaften muss ein geeigneter Reiz aufweisen? Darüber gibt es verschiedene Theorien, die im Folgenden kurz dargestellt werden.
Inhaltsverzeichnis |
Assoziative Ansätze
Assoziative Theorien gehören zu den historisch ältesten Erklärungen der Operanten Konditionierung. Sie gehen auf Edward Lee Thorndike und dessen law of effect zurück.
Diese Theoretiker betonen die Bildung von Assoziationen zwischen Reizen und Reizen während der Konditionierung. Diese assoziativen Verknüpfungen beruhen dabei auf klassischen Konditionierungsmechanismen. Innerhalb der Assoziazionisten gibt es unterschiedliche Annahmen darüber, zwischen welchen Elementen diese Assoziationen geknüpft werden. Eine instrumentelle Konditionierungssituation umfasst im einfachsten Fall drei Elemente: (Umgebungs-) Reize S (stimulus), eine Reaktion R und eine Konsequenz auf die Reaktion O (outcome, den Verstärker).
S-R-Lernen
Thorndike unterstellte eine S-R-Assoziation. Der Organismus verknüpft die Umgebungsreize einer bestimmten Situation mit einer bestimmen Reaktion. Der Verstärker dient dabei lediglich der Entstehung dieser Assoziation, er ist selbst nicht Teil der Verknüpfung.
Daraus formulierte Thorndike sein law of effect: Wird ein Verhalten in einer bestimmten Situation von befriedigenden Konsequenzen gefolgt, führt dies zu einer Stärkung der Assoziation zwischen Situation und Reaktion. Das führt dazu, dass die Auftretenswahrscheinlichkeit der Reaktion in der Situation steigt.
Dieser Ansatz ist heute weitgehend experimentell widerlegt. In sogenannten reinforcer-devaluation-Experimenten (Verstärker-Devaluation) kann man zeigen, dass auch eine Assoziation zwischen Verstärker, S und R gebildet wird: Angenommen, wir führen instrumentelle Verstärkung mit Ratten durch. Als Verstärker dient dabei Futter und die Ratten müssen einen Hebel in einen bestimmten Käfig drücken, um verstärkt zu werden. Um nun die Wirkung des Verstärker zu sichern, lässt man die Ratten vor dem Experiment eine Zeit lang hungern. Die Ratten lernen nun, den Hebel zu drücken und werden mit Futter belohnt. Nach dieser Lernphase devaluieren wir den Verstärker - d.h. wir machen ihn weniger `wertvoll´. Das geschieht dadurch, dass wir der Ratte freien Zugang zu Futter ermöglichen. Die Ratte wird sich ordentlich vollfressen. Wenn wir sie jetzt erneut in den Käfig mit dem Hebel setzen, dann beobachten wir, dass die Ratte den Hebel viel seltener drückt, als am Ende der Lernphase. S-R-Lernen kann diesen Effekt nicht erklären, denn hätte die Ratte nur eine Assoziation zwischen den Käfigreizen und dem Hebeldrücken gelernt, hätte sie die Reaktion unvermindert stark zeigen müssen. Da wir jedoch den Verstärker devaluiert hatten und damit die Reaktionsfrequenz herabsetzen konnten, muss auch eine Assoziation mit dem Verstärker bestehen.
S-O-Lernen
Eine weiterer Ansatz betont v.a. die Assoziation zwischen Situationsreizen und Verstärker. Dabei werden zwei Prozesse unterstellt:
Modern Two-Process-Theory Wird ein Organismus in eine Verstärkungssituation gebracht, dann besteht die wichtigste Assoziation in einer Verknüpfung der Umgebungsreize mit dem Verstärker. Zeigt der Organismus die instrumentelle Reaktion, führt dies zur Darbietung des Verstärkers. So wird durch klassische Konditionierungsmechanismen zwischen S und O eine Assozation gelernt (erster Prozess).
Diese Reiz-Reiz-Assoziation motiviert nun die instrumentelle Reaktion (zweiter Prozess). Es wird angenommen, dass im Organismus aufgrund der S-O-Assoziation in der Verstärkungssituation ein zentraler emotionaler Zustand (CES) ausgelöst wird. Handelt es sich um einen appetitiven Verstärker (also z.B. Futter) lösen die Umgebungsreize eine Art `Hoffnung´ auf Futter im Organismus aus. Diese motiviert dann das Zeigen der instrumentellen Reaktion.
Empirische Belege gehen insbesondere auf sogenannte transfer-of-control-Experimente zurück. Wenn die diffusen Umgebungsreize im Organismus einen emotionalen Zustand auslösen und dieser die Reaktion motiviert, dann sollte die klassische Konditionierung eines expliziten Reizes diese Motivation noch verstärken und somit zu einer stärkeren Reaktion führen. Dafür wird vor der instrumentellen Lernphase eine klassische Konditionierung vorgenommen, in welcher ein expliziter Reiz (z.B. ein Ton) mit Futter gepaart wird. Bietet man dann diesen Ton während der instrumentellen Lernphase dar, wird die Reaktionsfrequenz tatsächlich verstärkt.
Allerdings stellte man auch fest, dass das Konzept eines generellen CES nicht bestätigt werden kann. Verstärkt man eine Ratte mit Futterpellets und paart in einer nachfolgenden klassischen Konditionierung einen Reiz mit Zuckerwasser, dann erhöht die Darbietung des Zuckerwasser-Reizes während der instrumentellen Verstärkung mit Pellets die Reaktionsfrequenz nicht. Da beide Reize konsumatorische Reize sind, hätten sie beide in der Ratte `Hoffnung´ auslösen sollen. Das Ergebnis weist jedoch auf eine verstärkerspezifische Assoziation hin.
R-O-Lernen
Ein modernerer Ansatz bezieht alle drei Elemente S-(R-O)in die Assoziationsbildung ein. Da eine S-O-Assozation unter der Bedingung, dass R gezeigt wird, gelernt werden kann, wird angenommen, dass die Umgebungsreize S als diskriminativer Stimulus wirken und im Organismus die R-O-Assoziation aktivieren. Jedoch muss eine hierarchische S-(R-O) Assoziation separat nachgewiesen werden, da durch transfer-of-control Designs keine direkte Notwendigkeit der R belegt werden kann, um die zentrale emotionale Komponente zu aktivieren, die letztendlich in einer erhöhten Antwortrate resultiert.
Der Beleg der R-O Assoziation stützt sich auf folgendes Experiment:
Zuerst führt man mit einer Ratte eine instrumentelle Konditionierung in einem Lernkäfig durch. Die Ratte muss einen horizontalen Hebel bewegen. Drückt sie ihn nach links, wird sie mit Futterpellets verstärkt; drückt sie ihn nach rechts erhält sie Zuckerwasser. Nach ausreichendem Lernen drückt die Ratte den Hebel etwa gleichoft in beide Richtungen. Nach dieser Phase führt man eine Devaluation eines der beiden Verstärker durch. Das geschieht dadurch, dass man der Ratte freien Zugang zu Futterpellets lässt (jedoch nicht zum Zuckerwasser!). Die Ratte frisst sich mit Pellets voll, was dazu führt, dass Futterpellets als Verstärker an Wirkung verlieren (s.o.).
Nun bringt man die Ratte erneut in die instrumentelle Situation. Man beobachtet nun, dass die Ratte den Hebel kaum noch nach links drückt (wo sie Pellets bekäme), sondern fast ausschließlich nach rechts, um den alternativen, nicht devaluierten Verstärker (Zuckerwasser) zu erhalten.
Dieses Ergebnis kann nicht durch S-R-Assoziationen erklärt werden. Wie bereits oben gezeigt, hätte dann die Verstärkerdevaluation keinen Einfluss auf die Assoziation zwischen Umgebungsreizen und Reaktion haben dürfen und beide Reaktionen somit unverändert auftreten müssen.
Auch S-O-Lernen bzw. die Two-Process-Theory kann das Resultat nicht erklären. Diese Theorie schließt aus, dass in derselben Reizsituation verschiedene Assoziationen zwischen bestimmten Reaktionen und bestimmten Konsequenzen gelernt werden können. Wenn eine S-O-Assoziation bestimmend wäre, dann hätte die Devaluation eines der beiden Verstärker zu einer Verminderung beider Reaktionen in der Situation führen müssen. Stattdessen wurde aber nur eine bestimmte Reaktion, die mit einem bestimmten Verstärker verknüpft war, beeinträchtigt. Es muss also spezifische Reaktions-Verstärker-Assoziationen geben.
Verstärker
Gemeinsam ist allen assoziativen Theorien, dass sie Verstärker als bestimmte Reize ansehen. Ob ein Stimulus als Verstärker dienen kann, hängt also von den einzigartigen Eigenschaften des Reizes ab. Ein Reiz ist also entweder ein Verstärker oder nicht.
Verhaltensregulationstheorien
Eine neuere Sichtweise löst sich vom Fokus auf klassische Reizassoziationen. Dieser Ansatz betont vielmehr die Restriktionen auf das Verhalten, die durch einen Verstärkerplan bedingt werden.
Consumatory Response Theory
Die erste Theorie, welche sich von der Annahme, Verstärker seien besondere Reize, entfernte, war die Consumatory Response-Theory. Diese unterstellt, dass Verstärker nicht eine besondere Art von Reizen darstellen, sondern dass diese eine besondere Reaktion auslösen. Man beobachtete, dass Verstärker oft konsumatorische Reaktionen (z.B. Aufnehmen der Nahrung, Trinken) hervorrufen. Im Verhaltenssystemansatz spricht man von bestimmten Verhaltenssystemen, die durch Reize aktiviert werden (z.B. das Nahrungssystem). Verstärker stellen in der Regel Reize dar, die am Ende einer solchen Verhaltenskette dargeboten werden und das Verhaltenssystem durch eine ausgelöste konsumatorische Reaktion beenden. Damit betont man nicht die Reizeigenschaften an sich, sondern die ausgelöste Reaktion, die einen Reiz zum Verstärker machen.
Man beobachtete beispielsweise, dass Saccharin als Verstärker in Tierexperimenten dienen kann. Saccharin ist ein Süßstoff, der jedoch keinerlei biologischen Nährwert besitzt. Trotzdem kann Saccharin als Verstärker dienen, da es eine konsumatorische Reaktion auslöst. Wären es die besonderen Eigenschaften des Reizes, die einen Verstärker ausmachen, dann dürfte Saccharin nicht verstärkend wirken, da es keinerlei biologischen Wert besitzt.
Premack Principle
David Premack war der Erste, welcher einen Verstärker danach charakterisierte, welche Restriktionen ein Verstärkerplan auf das freie Verhalten legt.
Um einen Verstärker zu identifizieren, ist es notwendig, die Verhaltensaufteilung eines Organismus zwischen zwei Verhaltensalternativen frei von jeglicher Restriktion über eine gewisse Zeit zu erfassen (base-line-Verhaltensverteilung). Das weniger wahrscheinliche Verhalten kann man dann mit dem höherwahrscheinliche verstärken und so dessen Auftretenswahrscheinlichkeit steigern. Angenommen, wir beobachten eine Ratte, die freien Zugang zu Wasser hat und nach Lust und Laune in einem Laufrad rennen kann. Wir beobachten nun, dass die Ratte während einer Stunde 10 min im Laufrad rennt und 50 min trinkt. Trinken weist also eine höhere Aufretenswahrscheinlichkeit als Laufradrennen auf. Wir können nun die Wahrscheinlichkeit des Laufradrennens erhöhen, indem wir das Trinken als Verstärker benutzen. Wenn wir z.B. die Ratte 1 min trinken lassen, wenn sie 9 min im Laufrad war, dann wird die Verhaltensfequenz des Laufradrennens stark ansteigen.
Premack selbst führte ein Experiment mit Kindergartenkindern durch. Zuerst wurden die Kinder ohne Einschränkungen beobachtet. Einige Kinder spielten in dieser Zeit lieber mit einem Spielautomaten, andere aßen lieber Bonbons. Man teilte sie in zwei Gruppen nach ihren Vorlieben ein. Nachfolgend konnte man in der Spielautomatengruppe das Bonbonessen mit dem Spielen verstärken und in der Bonbongruppe das Spielen mit dem Bonbonessen verstärken. Man konnte jedoch in keiner der Gruppen das niederwahrscheinliche Verhalten mit dem höherwahrscheinlichen verstärken.
Response-Deprivation Hypothesis
Die Response-Deprivation-Hypothese stellt eine Erweiterung des Premack-Principles dar. Bei Premack konnte nur das in der base-line-Bedingungen weniger wahrscheinliche Verhalten durch das höhererwahrscheinliche verstärkt werden - nicht umgekehrt. Es lässt sich jedoch auch ein höherwahrscheinliches mit einem niederwahrscheinlichen Verhalten verstärken - wenn der Verstärkerplan die bass-line-Rate des niederwahrscheinlichen Verhaltens einschränkt.
Nehmen wir folgendes Beispiel: In der freien base-line-Bedingung verbringt eine Ratte in einer Stunde 10 min mit Laufradrennen und 50 min mit Trinken. Wir können nun auch das höherwahrscheinliche Verhalten (Trinken) in seiner Frequenz durch Verstärkung mit dem niederwahrscheinlichen Verhalten (Rennen) erhöhen. Dazu muss der Verstärkerplan so geartet sein, dass die Ratte während einer Stunde auch bei maximaler Anstrengung auf weniger als 10 min Laufradrennen kommt. Wir können also z.B. 14 min Trinken mit einer Minute Laufradrennen `belohnen´. So kann die Ratte in einer Stunde maximal 4 min im Laufrad rennen. Durch diesen Verstärkerplan können wir die Verhaltensfrequenz des Trinkens erhöhen.
Behavioral Bliss Point
Dieser Ansatz geht ebenfalls von der base-line-Verhaltensverteilung aus und definiert einen Verstärker nach dem auferlegten Verstärkungsplan. Beobachtet man einen Organismus in einer Situation ohne Restriktion (base-line), dann wird angenommen, dass dieser sein Verhalten zwischen zwei Verhaltensalternativen in einer präferierten Weise verteilt. Diese innewohnende Verteilungspräferenz wird als bliss point bezeichnet. Nehmen wir als Beispiel einen Studenten, der die Wahl zwischen Fernsehen und Lernen hat. Beobachten wir ihn bei der freien Wahl, so stellen wir z.B. fest, dass er pro 15 min Lernen 60 min Fernsehen schaut. Diese präferierte Verhaltensverteilung kennzeichnet den bliss-point. Diesen kann man am besten darstellen, wenn man beide Verhaltensalternativen in ein zweidimensionales Koordinatensystem einzeichnet. Die x-Achse bezeichnet die verbrachte Zeit für Verhalten x (Fernsehen) - die y-Achse die verbrachte Zeit für Verhalten y (Lernen). In unserem Fall zeichneten wir einen Punkt bei 15 min und 60 min ein - dort befindet sich der bliss-point.
Welches der beiden Verhalten nun verstärkt wird und welches als Verstärker dient, hängt einzig vom Verstärkerplan, der nun auf diese Verhaltensverteilung auferlegt wird, ab. Es wird angenommen, dass ein Organismus unter den Restriktionen eines Verstärkerplans stets motiviert ist, seinem ursprünglichen bliss-point möglichst nahe zu kommen. Der Verhalten wird also so auf beide Alternativen verteilt, dass die verbrachte Zeit mit beiden möglichst nahe an den bliss-point liegt.
Wenn wir im obigen Beispiel Lernen verstärken wollen und Fernsehen als Verstärker einsetzen wollen, müssen wir die Restriktionen so konstruieren, dass der Organismus bei 15 min Lernen nicht auf seine angestrebten 60 min Fernsehen kommen kann. Beispielsweise könnten wir festlegen, dass die verbrachte Zeit für beide Alternativen gleich sein muss - dass also 1 min Fernsehen 1 min Lernen voraussetzt bzw. 10 min Fernsehen 10 min Lernen usw.. Diese Restriktion lässt sich im Koordinatensystem als ein Gerade(y=x), die um 45° ansteigt, darstellen. Der bliss-point befindet sich also rechts unterhalb der Geraden. Der Student wird nun sein Verhalten so verteilen, dass er diesem Punkt möglichst nahe kommt. Nach dem minimum-deviation-model von Staddon entspricht diese resutltierende Verteilung einem Punkt, der eine orthogonale Senkrechte auf der Geraden mit dem bliss-point verbindet.
Wollen wir nun Fernsehen mit Lernen verstärken, müssen wir die Restriktionen so gestalten, dass der Organismus pro 60 min Fernsehen nicht auf seine angestrebten 15 min Lernen kommt. Wenn wir uns das Koordinatensystem mit dem bliss-point vorstellen, dann muss die Gerade, die die auferlegten Einschränkungen darstellt, so verlaufen, dass der bliss-point rechts unterhalb dieser liegt. Z.B. können wir festlegen, dass pro 1 min Lernen 10 min Fernsehen erfolgen müssen bzw. pro 6 min Lernen 60 min Fernsehen usw. Dieser Verstärkerplan stellt eine Gerade dar (y=0.1x), zu welcher der bliss-point links oberhalb liegt. So können wir Fernsehen mit Lernen verstärken und dessen Verhaltensrate erhöhen.
Generell lässt sich also vereinfachend sagen, dass eine graphische Verstärkerplanfunktion dann Verhalten x mit Verhalten y verstärkt, wenn der bliss-point links oberhalb des Graphen liegt. Verhalten y wird durch Verhalten x verstärkt, wenn der bliss-point rechts unterhalb der Funktion liegt. Verläuft die Gerade genau durch den bliss-point, dann wird kein Verstärkungseffekt auftreten, da die Verhaltensverteilung dann dem bliss-point (also der bass-line-Verteilung) ansprechen wird.
Kritik: Dieses Modell geht molar vor. Das bedeutet, der Organismus verteilt sein Verhalten über einen langen Zeitraum optimal. Es interessiert nicht, wie diese Verteilung zu einem gegebenen Moment zustande kommt, sondern man beobachtet das Verhalten über eine lange Zeit und schließt daraus auf das Optimum. Aber geht ein Organismus wirklich immer dermaßen vor? Versucht er tatsächlich `auf lange Sicht´ das Optimum zu erreichen, oder entscheidet er vielmehr spontan, individuell zu einem Zeitpunkt? Des Weiteren bestehen Zweifel, ob der `Wert´ einer Verhaltensalternative unter Verstärkerrestriktionen der gleiche ist, wie unter bass-line-Bedingungen. Vielleicht hat im obigen Beispiel Fernsehen einen geringeren Anreiz, wenn dafür vorher lange Zeit gelernt werden muss? Zudem ist die Ermittlung der Verhaltensverteilung im Feld (also in der Realität) sehr kompliziert. Es gibt eine Vielzahl von alternativen Verhalten, die alle berücksichtigt werden müssen. Z.B. könnte der Student im obigen Beispiel dem Verstärkerplan einfach entgehen, indem er ins Kino geht oder Radio hört, statt Fernsehen zu schauen und dafür zu lernen.
Siehe auch
Literatur
- Bickel, W.K., Madden G.J. (1999). A comparison of measures of relative reinforcing efficacy and behavioral economics: cigarettes and money in smokers. Behavioural Pharmacology, 10 (6-7), 627-637
- DeGrandpre R.J., Bickel W.K., Hughes J.R., Layng M.P., Badger G. (1993). Unit price as a useful metric in analyzing effects of reinforcer magnitude. Journal of Experimental Analsysis of Behavior, 60 (3), 641-661
- Domjan, M. (2005). The prinicples of learning and behavior. (5th Ed.) Wadsworth Publishing.
- Domjan, M. (2004). The essentials of learning and conditioning. (3rd Ed.). Wadsworht Publishing.
- Madden G.J., Bickel W.K., Jacobs E.A. (2000). Three predictions of the economic concept of unit price in a choice context. Journal of Experimental Analsysis of Behavior, 73 (1), 45-64
- Rescorla R.A., Solomon R.L. (1967). Two-process learning theory: Relationships between Pavlovian conditioning and instrumental learning. Psychological Review, 74 (3), 151-182
- Timberlake, W. (1993). Behavior systems and reinforcement: an integrative approach. Journal of Experimental Analsysis of Behavior, 60 (1), 105-28
- Urcuioli P.J., DeMarse T., Lionello-DeNolf K.M. (2001). Assessing the contributions of S-O and R-O associations to differential-outcome matching through outcome reversals. J. of Exp. Psychology: Animal Behavior Processes, 27 (3), 239-251
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Verst%C3%A4rker_%28Psychologie%29, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
