Bias van ongevoeligheid voor steekproefgrootte

het wijdverbreide misverstand over willekeur veroorzaakt veel problemen.

vandaag gaan we een concept verkennen dat veel menselijk verkeerd inschatten veroorzaakt. Het heet de vooringenomenheid van ongevoeligheid voor steekproefgrootte, of, als je dat liever hebt, de wet van kleine getallen.

ongevoeligheid voor kleine steekproefgrootten veroorzaakt veel problemen.

* * *

als ik één persoon zou meten, die toevallig 1.80 meter meet, en je dan zou vertellen dat iedereen in de hele wereld 1.80 meter was, zou je intuïtief beseffen dat dit een vergissing is. Je zou zeggen, Je kunt niet maar één persoon meten en dan zo ‘ n conclusie trekken. Daarvoor heb je een veel groter monster nodig.

en natuurlijk zou je gelijk hebben.

hoewel dit voorbeeld eenvoudig is, is het een belangrijke bouwsteen voor ons begrip van hoe ongevoeligheid voor steekproefgrootte ons op een dwaalspoor kan brengen.

zoals Stuard Suterhland schrijft in irrationaliteit:

alvorens conclusies te trekken uit informatie over een beperkt aantal gebeurtenissen (een steekproef), geselecteerd uit een veel groter aantal gebeurtenissen (de populatie), is het belangrijk om iets te begrijpen over de statistieken van steekproeven.In Thinking, Fast and Slow schrijft Daniel Kahneman: “a random event, by definition, does not least to explanation, but collections of random events does into a highly regular Mode.”Kahnemen vervolgt,” extreme resultaten (zowel hoog als laag) zijn meer kans om te worden gevonden in kleine dan in grote monsters. Deze verklaring is niet Causaal.”

we weten allemaal intuïtief dat ” de resultaten van grotere monsters meer vertrouwen verdienen dan kleinere monsters, en zelfs mensen die onschuldig zijn aan statistische kennis hebben gehoord over deze wet van grote aantallen.”

het principe van regressie tot het gemiddelde zegt dat naarmate de steekproefgrootte groter wordt, grotere resultaten naar een stabiele frequentie moeten convergeren. Dus, als we Munten omgooien, en het aantal keren meten dat we hoofden krijgen, zouden we verwachten dat het 50% benadert na een grote steekproefgrootte van, Laten we zeggen, 100 maar niet noodzakelijk 2 of 4.

in onze gedachten houden we vaak geen rekening met de nauwkeurigheid en onzekerheid bij een bepaalde steekproefgrootte.

hoewel we het allemaal intuïtief begrijpen, is het moeilijk voor ons om op het moment van verwerking en besluitvorming te beseffen dat grotere monsters betere representaties zijn dan kleinere monsters.

we begrijpen het verschil tussen een steekproefgrootte van 6 en 6.000.000 vrij goed, maar we begrijpen niet, intuïtief, het verschil tussen 200 en 3.000.

* * *

dit vooroordeel komt in vele vormen.In een telefonische peiling onder 300 senioren steunt 60% de president.

als u de boodschap van deze zin in precies drie woorden moest samenvatten, wat zouden ze dan zijn? Bijna zeker zou je kiezen ” ouderen steun president.”Deze woorden geven de kern van het verhaal. De weggelaten details van de poll, dat het werd gedaan op de telefoon met een steekproef van 300, zijn van geen belang op zichzelf; ze bieden achtergrondinformatie die weinig aandacht trekt.”Natuurlijk, als het monster extreem was, zeg 6 mensen, zou je het in vraag stellen. Tenzij je volledig wiskundig uitgerust bent, zul je intuïtief de steekproefgrootte beoordelen en je mag niet anders reageren op een steekproef van, Laten we zeggen, 150 en 3000. Dat, in een notendop, is precies de Betekenis van de verklaring dat “mensen zijn niet voldoende gevoelig voor steekproefgrootte.”

een deel van het probleem is dat we ons richten op het verhaal over betrouwbaarheid, of, robuustheid, van de resultaten.System one thinking, dat is onze intuïtie, is ” niet vatbaar voor twijfel. Het onderdrukt dubbelzinnigheid en construeert spontaan verhalen die zo coherent mogelijk zijn. Tenzij de boodschap onmiddellijk wordt ontkend, zullen de associaties die het oproept zich verspreiden alsof de boodschap waar is.”

rekening houdend met de grootte van het monster, tenzij het extreem is, maakt het geen deel uit van onze intuïtie.

Kahneman schrijft:

het overdreven geloof in kleine samples is slechts een voorbeeld van een meer algemene illusie – we besteden meer aandacht aan de inhoud van berichten dan aan informatie over hun betrouwbaarheid, en als gevolg daarvan eindigen met een blik op de wereld om ons heen die eenvoudiger en coherenter is dan de gegevens rechtvaardigen. Conclusies trekken is een veiliger sport in de wereld van onze verbeelding dan in werkelijkheid.

* * *

in de techniek, bijvoorbeeld, kunnen we dit tegenkomen in de evaluatie van precedenten.Steven Vick, writing in Degrees of Belief: Subjective Probability and Engineering Judgement, schrijft:

als iets eerder heeft gewerkt, is de veronderstelling dat het weer zal werken zonder mankeren. Dat wil zeggen, de kans op toekomstig succes afhankelijk van succes in het verleden wordt genomen als 1.0. Bijgevolg zou een structuur die een aardbeving heeft overleefd, worden verondersteld in staat te zijn met dezelfde grootte en afstand te overleven, waarbij de onderliggende veronderstelling is dat de operatieve causale factoren dezelfde moeten zijn. Maar de seismische grondbewegingen zijn vrij variabel in hun frequentie-inhoud, demping kenmerken, en vele andere factoren, zodat een precedent voor een enkele aardbeving vertegenwoordigt een zeer kleine steekproefgrootte.Het Bayesiaanse denken vertelt ons dat één enkel succes, zonder andere informatie, de kans op overleving in de toekomst verhoogt.

In zekere zin is dit gerelateerd aan robuustheid. Hoe meer je hebt moeten verwerken en je nog steeds overleven, hoe robuuster je bent.

laten we eens kijken naar enkele andere voorbeelden.

* * *

ziekenhuis

Daniel Kahneman en Amos Tversky toonden onze ongevoeligheid voor steekproefgrootte aan met de volgende vraag:

een bepaalde stad wordt bediend door twee ziekenhuizen. In het grotere ziekenhuis worden elke dag ongeveer 45 baby ’s geboren, en in het kleinere ziekenhuis worden elke dag ongeveer 15 baby’ s geboren. Zoals je weet, zijn ongeveer 50% van alle baby ‘ s jongens. Het exacte percentage varieert echter van dag tot dag. Soms kan het hoger zijn dan 50%, soms lager. Gedurende een periode van 1 jaar registreerde elk ziekenhuis de dagen waarop meer dan 60% van de baby ‘ s geboren jongens waren. Welk ziekenhuis heeft meer van die dagen opgenomen?

het grotere ziekenhuis

het kleinere ziekenhuis

ongeveer hetzelfde (dat wil zeggen, binnen 5% van elkaar)

de meeste mensen kiezen ten onrechte 3. Het juiste antwoord is echter 2.

in het arrest in de besluitvorming van het management legt Max Bazerman uit:

de meeste personen kiezen 3, waarbij verwacht wordt dat de twee ziekenhuizen een vergelijkbaar aantal dagen zullen opnemen waarop 60% of meer van de baby ‘ s jongens zijn. Mensen lijken een basisidee te hebben van hoe ongewoon het is om 60 procent van een willekeurige gebeurtenis in een bepaalde richting te hebben. Echter, statistieken vertellen ons dat we veel meer kans om te observeren 60 procent van de mannelijke baby ‘ s in een kleinere steekproef dan in een grotere steekproef.”Dit effect is gemakkelijk te begrijpen. Denk na over wat waarschijnlijker is: meer dan 60 procent kop in drie salto ’s of meer dan 60 procent kop in 3000 salto’ s.

* * *

een ander interessant voorbeeld komt van Poker.

over korte perioden is geluk belangrijker dan vaardigheid. Hoe meer geluk bijdraagt aan de uitkomst, hoe groter het monster dat je nodig hebt om onderscheid te maken tussen iemands vaardigheid en puur toeval.

David Einhorn legt uit.

mensen vragen me ” Is poker geluk?”en” is investeren geluk?”

het antwoord is, helemaal niet. Maar steekproefgrootte is belangrijk. Op elke dag kan een goede investeerder of een goede pokerspeler geld verliezen. Elke aandeleninvestering kan een verliezer blijken te zijn, hoe groot de rand ook lijkt. Hetzelfde voor een pokerhand. Een pokertoernooi is niet erg verschillend van een munt-flipping wedstrijd en ook niet zes maanden van beleggingsresultaten.

op basis daarvan speelt geluk een rol. Maar na verloop van tijd – meer dan duizenden handen tegen een verscheidenheid van spelers en meer dan honderden investeringen in een verscheidenheid van marktomgevingen – vaardigheid wint.

naarmate het aantal gespeelde handen toeneemt, speelt vaardigheid een steeds grotere rol en speelt geluk minder een rol.

* * *

maar dit gaat veel verder dan ziekenhuizen en poker. Honkbal is een ander goed voorbeeld. Over een lang seizoen, kansen zijn de beste teams zal stijgen naar de top. Op korte termijn kan alles gebeuren. Als je kijkt naar de staande 10 wedstrijden in het seizoen, de kans is dat ze niet representatief zullen zijn voor waar dingen zullen landen na de volledige 162 game seizoen. Op de korte termijn speelt geluk een te grote rol.In Moneyball schrijft Michael Lewis: “In een serie van vijf wedstrijden zal het slechtste team in het honkbal ongeveer 15% van de tijd de beste verslaan.”

* * *

als je mensen promoot of met collega ‘ s werkt, wil je deze vooringenomenheid ook in gedachten houden.

als u ervan uitgaat dat prestaties op het werk een combinatie van vaardigheid en geluk zijn, kunt u gemakkelijk zien dat de steekproefgrootte relevant is voor de betrouwbaarheid van prestaties.

dat prestatiesteekproeven werken zoals alles, hoe groter de steekproefgrootte, hoe groter de vermindering van onzekerheid en hoe groter de kans dat u goede beslissingen neemt.

dit is bestudeerd door een van mijn favoriete denkers, James March. Hij noemt het het valse record effect.

hij schrijft:

vals Record Effect. Een groep managers met identieke (matige) capaciteiten zal op korte termijn een aanzienlijke variatie in hun prestatierecords vertonen. Sommige zullen worden gevonden aan het ene einde van de distributie en zal worden beschouwd als uitstaande; anderen zullen aan de andere kant staan en als ineffectief worden beschouwd. Hoe langer een manager in een baan blijft, hoe minder het waarschijnlijke verschil tussen de waargenomen prestatie en de werkelijke bekwaamheid. Tijd op het werk verhoogde de verwachte steekproef van waarnemingen, verminderde verwachte steekproeffout, en dus verminderde de verandering dat de manager (of matig vermogen) zal worden bevorderd of verlaten.

Heldeffect. Binnen een groep managers met verschillende capaciteiten is het minder waarschijnlijk dat dit gerechtvaardigd is naarmate het promotiepercentage hoger is. Prestatiegegevens worden geproduceerd door een combinatie van onderliggende bekwaamheid en steekproefvariatie. Managers met goede records hebben meer kans op een hoge capaciteit dan managers met slechte records, maar de betrouwbaarheid van de differentiatie is klein wanneer records kort zijn.

(ik realiseer me dat promoties veel ingewikkelder zijn dan ik laat merken. Sommige banen zijn bijvoorbeeld moeilijker dan andere. Het wordt snel rommelig en dat is een deel van het probleem. Vaak als dingen rommelig worden zetten we onze hersenen uit en verzinnen we de eenvoudigste verklaring die we kunnen. Simpel maar fout. Ik wijs er alleen op dat de steekproefgrootte één input is in de beslissing. Ik ben geenszins voorstander van een” ervaring is het beste ” aanpak, want dat komt met een groot aantal andere problemen.)

* * *

deze vooringenomenheid wordt ook tegen u gebruikt in de reclame.

de volgende keer dat u een reclame ziet waarin staat “4 van de 5 artsen raden … “Deze resultaten zijn zinloos zonder het kennen van de steekproefgrootte. De kans is vrij groot dat de steekproefgrootte 5 is.

* * *

Grote monstergroottes zijn geen wondermiddel. Dingen veranderen. Systemen evolueren en vertrouwen in die resultaten kan ook ongegrond zijn.

de sleutel is te allen tijde te denken.

deze vertekening leidt tot een hele reeks zaken, zoals:
– risico onder schatten
– risico overschatten
– buitensporig vertrouwen in trends/patronen
– buitensporig vertrouwen in het gebrek aan bijwerkingen/problemen

de vertekening van ongevoeligheid voor steekproefgrootte maakt deel uit van het Farnam Street-rooster van mentale modellen.

gelabeld: Bias van ongevoeligheid voor regressie, Daniel Kahneman, David Einhorn, False Record Effect, Max Bazerman, Mental Model, statistieken

mentaal Model: Bias van ongevoeligheid voor steekproefgrootte

Geef een antwoord Antwoord annuleren