Bias fra ufølsomhed til prøvestørrelse

den udbredte misforståelse af tilfældighed forårsager mange problemer.

i dag skal vi udforske et koncept, der forårsager en masse menneskelig fejlvurdering. Det kaldes bias fra ufølsomhed til prøvestørrelse, eller, hvis du foretrækker,loven om små tal.

ufølsomhed over for små prøvestørrelser forårsager mange problemer.

* * *

hvis jeg målte en person, der tilfældigvis målte 6 fod, og så fortalte dig, at alle i hele verden var 6 fod, ville du intuitivt indse, at dette er en fejltagelse. Du vil sige, du kan ikke måle kun en person og derefter drage en sådan konklusion. For at gøre det ville du have brug for en meget større prøve.

og selvfølgelig ville du have ret.

selvom det er enkelt, er dette eksempel en vigtig byggesten til vores forståelse af, hvordan ufølsomhed over for prøvestørrelse kan føre os på afveje.

som Stuard Suterhland skriver i irrationalitet:

før man drager konklusioner fra information om et begrænset antal begivenheder (en prøve) valgt fra et meget større antal begivenheder (befolkningen) er det vigtigt at forstå noget om statistikken over prøver.

i tænkning, hurtig og langsom, Daniel Kahneman skriver “en tilfældig begivenhed, per definition, egner sig ikke til forklaring, men samlinger af tilfældige begivenheder opfører sig på en meget regelmæssig måde.”Kahnemen fortsætter,” ekstreme resultater (både høje og lave) er mere tilbøjelige til at blive fundet i små end i store prøver. Denne forklaring er ikke årsagssammenhæng.”

vi ved alle intuitivt, at “resultaterne af større prøver fortjener mere tillid end mindre prøver, og selv mennesker, der er uskyldige for statistisk viden, har hørt om denne lov med stort antal.”

princippet om regression til gennemsnittet siger, at når prøvestørrelsen vokser, skal større resultater konvergere til en stabil frekvens. Så hvis vi vender mønter og måler andelen af gange, vi får hoveder, ville vi forvente, at den nærmer sig 50% efter en stor prøvestørrelse på f.eks. 100, men ikke nødvendigvis 2 eller 4.

i vores sind undlader vi ofte at redegøre for nøjagtigheden og usikkerheden med en given stikprøvestørrelse.

mens vi alle forstår det intuitivt, er det svært for os at indse i øjeblikket af behandling og beslutningstagning, at større prøver er bedre repræsentationer end mindre prøver.

vi forstår forskellen mellem en stikprøvestørrelse på 6 og 6.000.000 ret godt, men vi forstår ikke intuitivt forskellen mellem 200 og 3.000.

* * *

denne bias kommer i mange former.

i en telefonundersøgelse af 300 seniorer støtter 60% præsidenten.

hvis du skulle opsummere meddelelsen i denne sætning med nøjagtigt tre ord, hvad ville de være? Næsten helt sikkert ville du vælge ” Ældre støtte præsident.”Disse ord giver kernen i historien. De udeladte detaljer i afstemningen, at det blev gjort på telefonen med en prøve på 300, har ingen interesse i sig selv; de giver baggrundsinformation, der tiltrækker lidt opmærksomhed.”Selvfølgelig, hvis prøven var ekstrem, siger 6 personer, ville du sætte spørgsmålstegn ved det. Medmindre du er fuldt matematisk udstyret, vil du dog intuitivt bedømme stikprøvestørrelsen, og du reagerer muligvis ikke anderledes på en prøve på f.eks. 150 og 3000. Det er i en nøddeskal nøjagtigt betydningen af udsagnet om, at “folk ikke er tilstrækkeligt følsomme over for stikprøvestørrelse.”

en del af problemet er, at vi fokuserer på historien over pålidelighed eller robusthed af resultaterne.

System en tænkning, det er vores intuition, er “ikke tilbøjelig til at tvivle. Det undertrykker tvetydighed og konstruerer spontant historier, der er så sammenhængende som muligt. Medmindre budskabet straks negeres, vil de foreninger, det fremkalder, sprede sig som om budskabet var sandt.”

at overveje stikprøvestørrelse, medmindre det er ekstremt, er ikke en del af vores intuition.

Kahneman skriver:

den overdrevne tro på små prøver er kun et eksempel på en mere generel illusion – vi er mere opmærksomme på indholdet af meddelelser end på information om deres pålidelighed og ender som et resultat med et syn på verden omkring os, der er enklere og mere sammenhængende end dataene berettiger. At springe til konklusioner er en sikrere sport i vores fantasiverden, end den er i virkeligheden.

* * *

i teknik kan vi for eksempel støde på dette i evalueringen af præcedens.

Steven Vick, skriver i grader af tro: subjektiv sandsynlighed og teknisk vurdering, skriver:

hvis noget har fungeret før, er formodningen, at det vil fungere igen uden fejl. Det vil sige, at sandsynligheden for fremtidig succes betinget af tidligere succes tages som 1.0. Følgelig antages en struktur, der har overlevet et jordskælv, at være i stand til at overleve med samme størrelse og afstand, idet den underliggende formodning er, at de operative årsagsfaktorer skal være de samme. Men de seismiske jordbevægelser er ret variable i deres frekvensindhold, dæmpningskarakteristika og mange andre faktorer, således at præcedens for et enkelt jordskælv repræsenterer en meget lille prøvestørrelse.

Bayesian thinking fortæller os, at en enkelt succes, der mangler anden information, øger sandsynligheden for overlevelse i fremtiden.

på en måde er dette relateret til robusthed. Jo mere du har været nødt til at håndtere, og du overlever stadig, jo mere robust er du.

lad os se på nogle andre eksempler.

* * *

Hospital

Daniel Kahneman og Amos Tversky demonstrerede vores ufølsomhed over for prøvestørrelse med følgende spørgsmål:

en bestemt by betjenes af to hospitaler. På det større hospital fødes omkring 45 babyer hver dag, og på det mindre hospital fødes omkring 15 babyer hver dag. Som du ved, er omkring 50% af alle babyer Drenge. Den nøjagtige procentdel varierer dog fra dag til dag. Nogle gange kan det være højere end 50%, nogle gange lavere. I en periode på 1 år registrerede hvert hospital de dage, hvor mere end 60% af de fødte babyer var drenge. Hvilket hospital tror du registrerede flere sådanne dage?

det større hospital
det mindre hospital
om det samme (det vil sige inden for 5% af hinanden)

de fleste vælger forkert 3. Det rigtige svar er 2.

i dom i ledelsesmæssig beslutningstagning forklarer:

de fleste individer vælger 3 og forventer, at de to hospitaler registrerer et lignende antal dage, hvor 60 procent eller mere af babybestyrelsen er drenge. Folk synes at have en grundlæggende ide om, hvor usædvanligt det er at have 60 procent af en tilfældig begivenhed, der forekommer i en bestemt retning. Statistikker fortæller os imidlertid, at vi er meget mere tilbøjelige til at observere 60 procent af mandlige babyer i en mindre prøve end i en større prøve.”Denne effekt er let at forstå. Tænk over, hvad der er mere sandsynligt: at få mere end 60 procent hoveder i tre flips af mønt eller få mere end 60 procent hoveder i 3.000 flips.

* * *

et andet interessant eksempel kommer fra Poker.

over korte perioder er held vigtigere end dygtighed. Jo mere held bidrager til resultatet, jo større prøve skal du skelne mellem en persons dygtighed og ren chance.

David Einhorn forklarer.

folk spørger mig ” er poker held?”og” investerer held?”

svaret er slet ikke. Men prøvestørrelser betyder noget. På en given dag kan en god investor eller en god pokerspiller tabe penge. Enhver aktieinvestering kan vise sig at være en taber, uanset hvor stor kanten ser ud. Det samme gælder en pokerhånd. En pokerturnering er ikke meget forskellig fra en mønt-spejlvende konkurrence og hverken er seks måneders investeringsresultater.

på dette grundlag held spiller en rolle. Men over tid – over tusinder af hænder mod en række spillere og over hundreder af investeringer i en række markedsmiljøer – vinder dygtighed ud.

efterhånden som antallet af spillede hænder stiger, spiller dygtighed en større og større rolle, og held spiller mindre rolle.

* * *

men dette går langt ud over hospitaler og poker. Baseball er et andet godt eksempel. Over en lang sæson, odds er de bedste hold vil stige til toppen. På kort sigt kan alt ske. Hvis man ser på de stående 10 Spil ind i sæsonen, odds er, at de ikke vil være repræsentative for, hvor tingene vil lande efter den fulde 162 spil sæson. På kort sigt spiller held for meget af en rolle.

i Moneyball skriver Michael Levis “i en serie med fem spil vil det værste hold i baseball slå det bedste omkring 15% af tiden.”

* * *

hvis du promoverer mennesker eller arbejder med kolleger, vil du også huske denne bias.

hvis du antager, at ydeevne på arbejdspladsen er en kombination af dygtighed og held, kan du nemt se, at prøvestørrelsen er relevant for pålideligheden af ydeevnen.

denne prøveudtagning fungerer som alt andet, jo større prøvestørrelse jo større reduktion i usikkerhed og jo mere sandsynligt er du at træffe gode beslutninger.

dette er blevet undersøgt af en af mine foretrukne tænkere, James March. Han kalder det den falske rekordeffekt.

han skriver:

falsk rekord effekt. En gruppe ledere med identisk (moderat) evne vil vise betydelig variation i deres præstationsrekorder på kort sigt. Nogle vil blive fundet i den ene ende af distributionen og vil blive betragtet som fremragende; andre vil være i den anden ende og vil blive betragtet som ineffektive. Jo længere en leder forbliver i et job, desto mindre er den sandsynlige forskel mellem den observerede præstationsrekord og den faktiske evne. Tid på jobbet øgede den forventede prøve af observationer, reducerede forventet prøveudtagningsfejl og reducerede således den ændring, som lederen (eller moderat evne) enten vil blive forfremmet eller afslutte.

Helt Effekt. Inden for en gruppe ledere med forskellige evner, jo hurtigere forfremmelsesgraden er, desto mindre sandsynligt er det at være berettiget. Præstationsregistreringer produceres ved en kombination af underliggende evne og prøveudtagningsvariation. Ledere, der har gode poster, er mere tilbøjelige til at have høj evne end ledere, der har dårlige poster, men pålideligheden af differentieringen er lille, når poster er korte.

(jeg er klar over, at kampagner er meget mere komplicerede, end jeg lader på. Nogle job er for eksempel vanskeligere end andre. Det bliver rodet hurtigt, og det er en del af problemet. Ofte når tingene bliver rodet, slukker vi vores hjerner og sammensætter den enkleste forklaring, vi kan. Simpelt men forkert. Jeg påpeger kun, at stikprøvestørrelse er et input til beslutningen. Jeg er på ingen måde fortaler for en “oplevelse er bedst” tilgang, da det kommer med en lang række andre problemer.)

* * *

denne bias bruges også mod dig i reklamer.

næste gang du ser en reklame, der siger “4 ud af 5 læger anbefaler ….”Disse resultater er meningsløse uden at kende stikprøvestørrelsen. Oddsene er ret gode, at stikprøvestørrelsen er 5.

* * *

Store prøvestørrelser er ikke et universalmiddel. Tingene ændrer sig. Systemer udvikler sig, og troen på disse resultater kan også være ubegrundet.

nøglen er til enhver tid at tænke.

denne bias fører til en hel masse ting, såsom:
– underestimering af risiko
-overestimering af risiko
– unødig tillid til tendenser/mønstre
-unødig tillid til manglen på bivirkninger/problemer

Bias fra ufølsomhed til prøvestørrelse er en del af Farnam Street gitterværk af mentale modeller.

tagget: Bias fra ufølsomhed til regression, Daniel Kahneman, David Einhorn, falsk Rekordeffekt, maks. Baserman, Mental Model, statistik

Mental Model: Bias fra ufølsomhed til prøvestørrelse

Skriv et svar Annuller svar