Stein saks papir

Hvem har vel ikke brukt spillet ‘Stein-Saks-Papir’ som en løsning på en konflikt. For eksempel hvem som skal få det siste kakestykket, eller hvem som skal gå ut med søppelet. ‘Stein-saks-papir’ blir brukt i mange forskjellige sammenhenger, noen hevder faktisk at alt kan løses med stein saks papir. Så lenge alle holder hemmelig hvilke strategi de kommer til å bruke så har de alle, i teorien, like stor sjanse for å vinne. Uansett hvem, hvor og når de spiller. Med andre ord tilsier spillereglene at er det helt tilfeldig hvem som vinner. Da er det kanskje litt rart at det holdes turneringer i SSP (‘Stein-Saks-Papir’), for mennesker og for datamaskiner. En turnering der det er tilfeldig hvem som vinner virker ikke så interessant. Finnes det taktikker som gjør at man har større sjanse for å vinne enn motstanderen?

SSP er kjent for de fleste. Vi skal ta for oss SSP med 2 spillere der reglene er som følger: Hver spiller velger en av de tre valgene stein, saks eller papir uten at den andre får vite hvilke. Deretter viser de hverandre samtidig hva de valgte. Stein vinner over saks, saks vinner over papir, papir vinner over stein. Om begge velger det samme blir det uavgjort. SSP egner seg bra som et eksempel på mixed-strategy Nash equilibrium hvor man har flere enn to mulige strategier. På normal-form ser SSP slik ut:
[1]
For å beregne mixed-strategy Nash equilibrium gir man spiller 2 sannsynlighetsfordeling (p,q,1-p-q) henholdsvis på de tre taktikkene stein, saks og papir. Så regner man ut de tre forventede gevinstene spiller 1 kan få. Ved å bruke matrisen over for de tre valgene stein, saks og papir får man henholdsvis utrykkene: 1-p-2q, 2p+q-1 og p-q. Hvis spiller 2 velger p og q slik at ett av utrykkene over blir mindre ett av de andre utrykkene, så vil ikke spiller 1 velge den taktikken og ende opp med større forventet gevinst. Hvis spiller 1 får større forventet gevinst, så vil spiller 2 få mindre forventet gevinst, som ikke er ønskelig. Spiller 2 må da velge p og q slik at ingen av taktikkene til spiller 1 vil gi mindre forventet gevinst enn en av de andre taktikkene. Med andre ord må de tre utrykkene bli like. Siden det bare er to ukjente, så trenger man bare to av ligningene, og med litt regning kommer man frem til at SSP har mixed-strategy Nash equilibrium (1/3, 1/3, 1/3) for spiller 2. Med samme utregning finner man ut at spiller 1 har samme mixed-strategy Nash equilibrium, altså (1/3, 1/3, 1/3). Spillteori forteller oss da at hvis spiller 1 og spiller 2 vil maksimere gevinsten sin, så må de begge ha like stor sannsynlighet for å velge mellom de tre taktikkene. Standard spillteori kan altså ikke gi oss en taktikk som gjør at vi vinner mer enn halvparten av gangene (med uavgjort som gjenspill). Så hvis du er fornøgd med å vinne i gjennomsnitt halvparten av gangene, så er det bare å spille tilfeldig. Problemet med det er at selv om vi mennesker prøver å være uforutsigbar, så ender vi opp med å følge ett slags system. Noen starter kanskje alltid med stein, fordi de mener at den vanlige mannen i gaten stort sett velger saks i første runde. Eller at etter man har vunnet med en saks, så bytter man til stein, fordi man er sikker på at motstanderen ikke kommer til å velge papir igjen. Poenget er at mennesker velger ikke tilfeldig, og dette kan utnyttes. Det gjelder bare å vite hva motstanderen tenker. Så hvordan tenker mannen i gaten?

Hai-Jun Zhou, Zhijian Wang og Bin Xu publiserte i april en artikkel som kan hjelpe å svare på dette spørsmålet. De utførte et eksperiment som tok for seg 360 studenter fra Zhejiang Universitet. De ble delt inn i grupper på 6, som hver spilte 300 runder med SSP. For å forhindre at valgene en spiller tok ble for mye påvirket av valgene motstanderen tok ble hver gruppe tilfeldig paret opp hver runde. Til slutt fikk hver deltager en pengegevinst ut ifra hvor mange ganger de fikk uavgjort og hvor mange ganger de vant, der vinning ga større gevinst. Hvor mye større varierte ut ifra hvilke gruppe du var i. De fleste studentene brukte omtrent like ofte stein, saks og papir(, med kanskje marginalt større mengde stein i forhold til papir og saks hos noen). Dette stemmer ganske godt med mixed-strategy Nash equilibrium. Derimot så de at valgene studentene tok hver runde ikke var helt tilfeldig. Valgene studentene gjorde ble tilsynelatende påvirket av hvordan forrige runde gikk, og hva de hadde valgt da. De brukte dataene og skjekket hva sannsynligheten var for hva en tilfeldig student fra undersøkelsen gjorde neste runde ut ifra hvordan forrige runde gikk og hvilket valg studentene tok. Resultatene plottet de og fikk grafene under.
[2]
W,T og L betyr vinn, uavgjort og tap henholdsvis, og -,0 og +, som henger på bokstavene, betyr henholdsvis endring med klokken, ingen endring og endring mot klokken i syklusen:

De fem grafene kommer ifra grupperingen basert på hvor stor gevinst de fikk per seier. Til venstre er de som fikk minst, og stigende mot høgre.
Når vi leser grafen ser vi at studenter som vant en runde valgte i større grad den samme taktikken som de vant med. For eksempel de som vant med stein valgte som oftest stein neste runde. Mens studenter som tapte hadde en tendens til å velge den neste taktikken i syklusen stein -> saks -> papir -> stein (med klokken i syklusen over). For eksempel hvis en av dem tapte etter å ha valgt saks så var sannsynligheten størst for at papir var neste valget til denne studenten. Utifra dataene lagde de en slags dynamisk mixed-strategy som avhenger av hva motstanderen gjorde forrige runde, og hvordan runden endte. I grove trekk sier strategien at om motstanderen vinner så bruk en mixed strategy som vektlegger den taktikken som går mot det motstanderen din vant med. Hvis motstanderen din taper, så bruk en mixed strategy som vektlegger den taktikken motstanderen din tapte med. Ellers i artikkelen snakker de mye om evolusjonær spillteori og den sykliske endringen i spillet. Uten å gå for mye inn på dette så stemmer de empiriske dataene litt med de matematiske beregningene.

For en datamaskin, så er det lett å bruke formelen de kommer med i artikkelen (hvertfall hvis den allerede er godt implementert), men det er ikke akkurat så lett å kalkulere den i hodet. Så en forenklet strategi ville vært: Hvis motstanderen vinner, velg den som går mot den motstanderen vant med. Hvis motstanderen taper, velg den motstanderen tapte med. Hvis det blir uavgjort, prøv å være så tilfeldig så mulig med litt mindre vekt på å ta det samme. Innimellom gjør du tilfeldige ting, slik at motstanderen vanskeligere fanger opp at du har et mønster. Interessant nok endte studentene opp nærme mixed-strategy Nash equilibrium. En eventuell optimalisert generell strategi i SSP vil nok også havne nærme et mixed-strategy Nash equilibrium. Hvis det er ujevnt fordelt, så kan det brukes mot deg. Så spillteori er ikke helt på jorde, men det passer ikke alltid inn i virkeligheten. Vi er for det første ikke 100% rasjonelle, og er heller ikke alltid ute etter å maksimere gevinsten vår. Det kan for eksempel tenkes at man taper med vilje ut av sympati. Eller at man vet at i det lange løp lønner det seg å tape denne ene gange. Man kunne prøvd å flette dette inn i verdiene til spillteori, men det er ikke vanskelig å se at det blir altfor komplekst å gjennomføre. Vi er rett og slett for irrasjonelle og kompliserte.
Et poeng, vedrørende måten de utførte eksperimentet på versus den virkelige verden, er at studentene ikke fikk noe særlig negativ konsekvens for å tape. Ihvertfall ikke i form av at de mistet noe de hadde før de startet. I dagliglivet ville en kanskje inngått i et enkelt veddemål om hvem som er best i SSP med en pengeinnsats, eller for den kollektivboende studenten: hvem tar oppvasken som har samlet seg opp den siste måneden. Her er ikke lenger poenget bare å vinne, men og å unngå å tape. Kanskje det ikke vil gjøre noe forskjell, men hvordan kan vi være helt sikker hvis vi ikke undersøker det.
Et annet poeng er: Hvis grunnen til at studentene oftest går med klokken i syklusen, etter tap, har noe med at på engelske (eller kinesisk?) sier man ‘Rock-Paper-Scissor’, så kan det være at syklusstrategien vil være motsatt i Norge. Da vil vi oftest gå mot klokken, fordi vi sier stein-saks-papir. Hvis man derimot overbeviser seg selv om at grunnen til den negativt orienterte sykliske tendensen kommer som et resultat av reglene og menneskets natur, og ikke navnet, så er det ikke noe problem å bruke denne strategien i Norge. For å si noe sikkert så er man nok nødt til å gjøre et lignende eksperiment i Norge (igjen).
Hvis alle hadde fulgt spillteori, så hadde ikke det ikke vært mulig å lage en klart overlegen strategi i SSP. Motstanderen din velger da mellom stein, saks og papir helt tilfeldig og det er ikke lenger mulig å utnytte en eventuell forutsigbarhet. Uansett hva man gjør, så vil man i gjennomsnitt ende opp med seier halvparten av gangene. Vi mennesker tenker (både bevist og ubevist) at vi vet hvilke av valgene som fungerer bedre enn de andre. Og nettopp derfor er det mulig å lage strategier som ender i seier oftere enn tap. Hvis du vet hvilke strategi motstanderen din skal ta, så er det bare å motgå den.

Bilde kilder:
[1] http://en.wikipedia.org/wiki/Simultaneous_game
[2] Social cycling and conditional responses in the Rock-Paper-Scissors game av Hai-Jun Zhou, Zhijian Wang og Bin Xu.

Kilder:
Social cycling and conditional responses in the Rock-Paper-Scissors game av Hai-Jun Zhou, Zhijian Wang og Bin Xu.
http://nfssp.no/index.php?id=17
http://www.rpscontest.com/