Forsterkning og straff - er du god nok?

Hensikten med denne artikkelen er å gå igjennom begrepene forsterkning og straff. Dette er begreper som brukes svært ofte av svært mange, men mener alle det samme? Hvilke muligheter har vi for å øke eller redusere atferd? Hvilke forsterkere skal vi bruke? Hvor ofte skal vi tildele forsterkning for ønsket atferd? Hvorfor får ikke alltid tiltakene vi setter i gang den effekten vi håpet? Dette er noe av det vi skal se litt nærmere på i denne artikkelen, og vi begynner med å se på forsterkning.

Av Helge Asbjørnsen, Randi Helene Tillung og Maj-Brit Iden

Publisert første gang Canis 2003

Publisert: 23/01/2017

Artikler og publikasjoner , Kommunikasjon , Trening

Er du interessert i utdanning innenfor dyrefag og trening se våre tilbud om utdanning . Les mer her.

Forsterkning - øker atferd

Som vi skal se er det ikke alltid så lett å si hvilke tiltak som virker forsterkende, men la oss først se hvordan man definerer en forsterker. Med forsterkning menes alt som øker en atferd, og det deles inn i positiv og negativ forsterkning. Med denne formuleringen mener vi at atferden øker i intensitet, hyppighet eller varighet. Strengt tatt snakker vi om sannsynlighet for gjentagelse, men for enkelthets skyld sier vi at atferden øker.

Inndeling i positiv og negativ henspeiler på hvorvidt det er noe som tilføres/oppnås (positivt) eller om det er noe som fjernes/unngås (negativt). Det som legges til eller trekkes fra er henholdsvis et velbehag eller et ubehag. La oss se på dem hver for seg:

Positiv forsterkning defineres som å tilføre/oppnå et velbehag med det resultatet at atferden øker. Godbit er et vanlig eksempel (hvis hunden setter pris på godbiten). Det er viktig å være klar over at det er hunden som skal oppfatte det vi tilfører som et velbehag. Det er uinteressant hvordan vi oppfatter det som tilføres. Hvordan kan vi vite hva hunden oppfatter? Jo rett og slett ved å se på atferden. Vi har en positiv forsterker hvis den atferden vi tilfører et velbehag i forbindelse med øker.

Negativ forsterkning defineres som å fjerne/unngå et ubehag med det resultat at atferden øker. Her kan man som eksempel ta en hund som ikke vil være alene, og som kommer seg ut av et rom ved å hoppe (tilfeldig) på dørhåndtaket. Dermed oppnår hunden å fjerne ubehaget ved å være alene. Hvis den gjentar hoppingen på døra neste gang, og gjerne med enda større intensitet, er det negativ forsterkning som opprettholder atferden.

Straff - minker atferd

Straff er alt som reduserer en atferd. Med denne formuleringen mener vi at sannsynligheten for gjentagelse av atferden avtar i intensitet, hyppighet eller varighet. Straff deles i positiv og negativ straff, det vil si å tilføre ubehag eller fjerne velbehag.

Positiv straff defineres som å tilføre et ubehag med det resultat at atferden reduseres. Saueavvenning med strøm er forsøk på å bruke positiv straff.

Negativ straff defineres som å fjerne et velbehag med det resultat at atferden reduseres. Klapper vi en valp som liker kos, og den begynner å bite, kan det at vi fjerner oss resultere i at bitingen avtar (avslutte klapping = fjerne et velbehag).

De fire konsekvensene

Disse fire mulighetene for forsterkning og straff kan settes opp skjematisk:

Forskjellen mellom forsterkning og straff

Så langt har vi sett hvordan man definerer forsterkning og straff, men er det alltid lett å avgjøre om det er forsterkning eller straff som anvendes? Hvilken type forsterkning eller straff dreier det seg i tilfelle om? Følgende eksempler kan belyse dette:

- Vi forsøker å forsterke, og klarer det

Hunden er løs på tur og hver gang den kommer inntil oss av seg selv gir vi den en godbit. Er dette forsterkning, og i tilfelle er den positiv eller negativ? Det er lett å anta at siden vi tilfører et velbehag er det snakk om positiv forsterkning.

Definisjonen krever imidlertid også at atferden skal øke i frekvens og vi må derfor kartlegge om hunden faktisk kommer inntil oss oftere pr. tidsenhet. Når vi vet at vi har tilført noe og at atferden har økt i frekvens kan vi konkludere med at vi har brukt positiv forsterkning.

En positiv forsterker virker fordi hunden er deprivert (har et udekket behov for den positive forsterkeren). For eksempel har godbitene større effekt hvis hunden er sulten og lek med eier er mer effektivt hvis hunden har vært alene noen timer. Det å tilføre en godbit kan alternativt ses på som å redusere sult (fjerne ubehag), altså negativ forsterkning. Vi kan si at positiv og negativ forsterkning virker sammen. En annen mulig forklaring er at hunden er blitt påført et ubehag (positiv straff) for en motsatt atferd og at den ønskede atferden opprettholdes av en annen negativ forsterker (fravær av den positive straffen).

- Vi forsøker å straffe, og klarer det

Ved saueavvenning påføres hunden et ubehag i form av strøm når den jager sau. I noen tilfeller virker dette etter hensikten, hunden reduserer frekvensen av å jage sau, og vi kan konkludere med at vi har brukt positiv straff. Det som opprettholder at hunden unnlater å jage sau, er at hunden unngår ubehag på den måten (negativ forsterkning).

Nå har vi sett på to eksempler hvor vi lykkes å lære hunden en ønsket atferd/fjerne en uønsket atferd. Imidlertid er det ofte slik at tiltakene vi setter i verk ikke virker som tiltenkt.

- Vi forsøker å forsterke, men straffer

Hunden får klapp og kos hver gang den kommer inntil eier, i den hensikt å få den til å gjenta den atferden hyppigere. Hvis resultatet av kartleggingen viser at frekvensen av atferden reduseres (hunden kommer sjeldnere inntil eier) må vi konkludere med at vi bruker straff. Det er da naturlig å stille seg spørsmålet om det er positiv og/eller negativ straff i situasjonen. Positiv straff kan være at hunden opplever kos og klapp i denne situasjonen som et ubehag. Sagt på en annen måte; atferden å gå inn til eier reduseres i frekvens og atferden å gå bort fra eier øker i frekvens og opprettholdes av negativ forsterkning. Det er viktig å være klar over at hva som oppleves som velbehag kan være situasjonsbetinget, slik at hunden gjerne kan oppleve klapp og kos som et velbehag i en annen situasjon.

- Vi forsøker å straffe, men forsterker

En hund hopper opp på folk, inklusiv eieren når den hilser. Eieren sier «nei» og skyver hunden ned hver gang den hopper, og når hunden kommer bort til eier uten å hoppe, forholder eieren seg passiv. Til tross for at eieren påfører det han tror er positiv straff, hopper hunden opp like ofte som tidligere. Når atferden tiltar eller opprettholdes på samme nivå forteller det oss at det må finnes en forsterker i situasjonen, og eventuelt straff på det å ikke hoppe. En mulig tolkning er at hunden opplever det å få tilsnakk og/eller bli skjøvet ned som et velbehag (positiv forsterkning), og at den blir snytt for et velbehag ved å ikke hoppe fordi den da ignoreres (negativ straff).

Nå har vi sett på fire eksempler, og en viktig lærdom man kan trekke av dem er at det er resultatet av tiltaket som definerer om det er forsterkning eller straff, og ikke tiltaket i seg selv!

Primær- og sekundærforsterkere

Positive forsterkere har en viktig funksjon, fordi de aktiverer hunden. Nærvær av positive forsterkere fører til en aktiveringstilstand som øker frekvensen og intensiteten av de atferdsformer som er sannsynlige i situasjonen.

Primærforsterkere (ubetingede forsterkere) er forsterkere med en biologisk betydning for organismen, eksempler er mat, vann, varme og så videre. Forsterkende stimuli er ikke begrenset til stimuli med biologisk betydning, og en rekke stimuli kan etableres som forsterkere, eksempler på dette er klikkeren og ros. Slike forsterkere kalles sekundærforsterkere og defineres som stimuli som får funksjon som forsterkere ved at de assosieres med primærforsterkere.

Et viktig poeng når det gjelder effekten av forsterkere er som nevnt deprivering. For primærforsterkere (for eksempel mat) er effekten større når hunden er sulten, og ved forsøk på rotter er de gjerne slanket til 80% av normalvekten. Dette er ikke ønskelig for våre hunder, derfor kompenserer vi med godbiter med høyere smaksmessig kvalitet enn fôret.

Ofte kan tilgangen på ros og lek med eier være så stor at de fungerer dårlig som forsterkere.

Variabel og kontinuerlig forsterkning

Det er en vanlig oppfatning at ved å ligge på en forsterkningsprosent rundt 30 (variabel forsterkning) vil intensiteten på atferden være høyere enn om man forsterker 100 % (kontinuerlig forsterkning). Det er imidlertid viktig å være klar over hvilke betingelser som ligger til grunn for disse resultatene. Forsøksdyrene er depriverte og befinner seg oftest i bur de er vant med, uten forstyrrelser fra omverdenen. Dette er sjelden tilfelle med hunder som vi trener. Hunden utsettes stadig for påvirkning fra omverdenen i form av hunder, mennesker, trafikk og ofte i nye miljøer.

Argumentet for å bruke variabel forsterkning er at atferden blir mer motstandsdyktig mot ekstinksjon (atferden forsvinner) enn hos dyr forsterket kontinuerlig. Dette er ikke alltid tilfelle, men så lenge man enten bruker bare kontinuerlig eller variabel forsterkning så viser all forskning at variabel forsterkning er mer motstandsdyktig mot ekstinksjon. La oss si at vi trene en rotte med kontinuerlig forsterkning og en annen med variabel forsterking på 30%.

Når vi slutter å forsterke rottene viser det seg at rotten med variabel forsterkning opprettholder atferden lengre enn den med kontinuerlig forsterkning. Dette kan forklares på flere måter:

Diskriminasjonshypotesen sier at det er større likhet mellom variabel forsterkning og ekstinksjon enn mellom kontinuerlig forsterkning og ekstinksjon. Altså er individet vant med å ikke få forsterkning hver gang, og vil i starten ikke skille dette fra ekstinksjon (aldri få forsterkning).

Frustrasjonshypotesen tar utgangspunkt i at med variabel forsterkning så opplever individet frustrasjon på grunn av at det forventer forsterkning uten å få det. Frustrasjonen vil assosieres med læringssituasjonene og dermed med forsterkning. Individet blir vant til å avgi responser under frustrasjon, og vil dermed avgi flere responser under ekstinksjon.

Sequential theory bruker hukommelsen som forklaring. Individet husker sekvenser av forsterkede og ikkeforsterkede responser. Dermed vil det huske at forsterkningen kommer etter at de forutgående responser ikke har ført til forsterkning, og ikke-forsterkede responser vil derfor motivere til flere responser.

Noen ganger er det likevel slik at kontinuerlig forsterkning er mer motstandsdyktig mot ekstinksjon enn variabel forsterkning. Dette er i situasjoner hvor samme hund forsterkes med ulike forsterkningsskjemaer på ulike øvelser. Hvis vi for eksempel forsterker en hund kontinuerlig for å sitte, og variabelt for å ligge, vil atferden å sitte være mest motstandsdyktig mot ekstinksjon. Dette er knyttet til at i valget mellom disse to atferdene, å sitte og å ligge, vil hunden alltid ha større forventninger til at sitting utløser forsterkning.

Tilsvarende ser en at hvis en og samme atferd hos ett individ forsterkes kontinuerlig av ”mor”, mens ”far” forsterker variabelt, så opprettholdes atferden lengst mot ”mor”. Dette har paralleller til innkallingstrening. Denne treningen skjer i en situasjon hvor hunden har tilgang på et stort antall positive forsterkere i form av blant annet andre hunder, lukter, katter og folk. I denne situasjonen vil kontinuerlig forsterkning av innkalling være mer motstandsdyktig mot ekstinksjon enn variabel forsterkning.

Ulike positive forsterkere

Hvilke positive forsterkere som anvendes for innlæring av ulike øvelser er viktig. For at en forsterker skal være effektiv er det en betingelse at nærvær av forsterkeren skaper aktivering. I mange hverdagslige situasjoner vi kommer opp i med hundene våre står hunden overfor mange forsterkere som står i et konkurranseforhold til hverandre. Det kan da være hensiktsmessig å se på hvilken forsterkning som til enhver tid skaper mest aktivering. Når vi trener hunden til å gå pent i bånd, kan godbit være en effektiv forsterker så lenge vi er alene. Idet hunden får øye på en annen hund, er tilgangen på den andre hunden en mer effektiv forsterker hvis den skaper høyere aktivering enn godbiten. I denne situasjonen er ikke godbiten lenger en effektiv forsterker. Trikset blir da selvfølgelig å tildele den mest betydningsfulle forsterkeren (den andre hunden) på en atferd vi ønsker (gå pent/komme inntil).

Nok et eksempel har vi når det gjelder innkalling. Hunden kommer hver gang vi roper når vi er alene fordi det vi bruker som forsterker er den mest aktiverende i den situasjonen. Når et nytt element, i form av en annen hund, en katt eller en lukt, introduseres i situasjonen har vi fått en ny forsterker som ofte er mer aktiverende enn maten. Vi må da enten finne en annen forsterker som kan utkonkurrere det nye elementet, eller vi kan forsøke å bruke det nye elementet som forsterker. I praksis kan det gjøres ved at hunden tildeles samværet med den andre hunden, eller det å komme nærmere den andre hunden, som et resultat av at den kommer inntil (kommer på innkalling).

Konklusjon

Når vi har valgt å skrive en artikkel om dette emnet er det knyttet til at kunnskap om forsterkning og straff gir oss et nødvendig og ofte tilstrekkelig verktøy for å analysere læringssituasjoner. Læringsteorien gir oss en presis måte å forklare hvordan atferder etableres og hvordan de kan modifiseres. Ofte har man brukt teorier om lederskap (hva nå det måtte være) for å forklare ting som enkelt lar seg forklare hvis en har litt kjennskap til læringsteori.

Mange stiller spørsmålet om når en kan slutte å forsterke hunden. Dette har sannsynligvis sammenheng med at mange tror positiv forsterkning bare er knyttet til innlæring. Dette spørsmålet besvares enklest med et motspørsmål. Er det slik at når vi har lært jobben vår så trenger vi ikke lenger betaling for å gjøre den? Det er riktignok en del ting vi gjør uten betaling (hobbyer), rett og slett fordi det å gjøre det er så kjekt i seg selv at vi ikke trenger forsterkere utover det. Slik er det med hunder også på en del atferder, men det er dessverre oftest på atferder vi ikke ønsker. Vi trenger ikke forsterke for å opprettholde atferden å jage katten til naboen, det å gjøre det er forsterkende nok i seg selv. Det å avbryte leken med andre hunder for å komme på innkalling er derimot ikke en selvforsterkende atferd.

Referanser

Læringspsykologi, Svartdal, F. og Flaten, M.A., (1998), ad Notam Gyldendal, Oslo
Ekstinksjon etter intermitterende forsterkning: Hva vet vi i dag?, Svartdal, F. , s.3-14, Diskriminanten nr. 3, 2001
Psychology of learning and behavior, Schwartz, B., Robbins, S.J., (1995), W.W.Norton & Co, New York
Positiv og negativ forsterkning, Egtvedt, M.,s.40-43,Canis Nr. 1/00

Les & Lær