Mentales Modell: Verzerrung von der Unempfindlichkeit zur Stichprobengröße

Das weit verbreitete Missverständnis der Zufälligkeit verursacht viele Probleme.

Heute werden wir ein Konzept untersuchen, das viele menschliche Fehleinschätzungen verursacht. Es heißt die Verzerrung von der Unempfindlichkeit zur Stichprobengröße oder, wenn Sie es vorziehen,das Gesetz der kleinen Zahlen.

Die Unempfindlichkeit gegenüber kleinen Stichprobengrößen verursacht viele Probleme.

* * *

Wenn ich eine Person messen würde, die zufällig 6 Fuß misst, und Ihnen dann sagen würde, dass jeder auf der ganzen Welt 6 Fuß groß ist, würden Sie intuitiv erkennen, dass dies ein Fehler ist. Sie würden sagen, Sie können nicht nur eine Person messen und dann eine solche Schlussfolgerung ziehen. Dazu benötigen Sie eine viel größere Stichprobe.

Und natürlich haben Sie Recht.

Dieses Beispiel ist zwar einfach, aber ein wichtiger Baustein für unser Verständnis, wie uns die Unempfindlichkeit gegenüber der Stichprobengröße in die Irre führen kann.

Wie Stuard Sutherland in Irrationalität schreibt:

Bevor aus Informationen über eine begrenzte Anzahl von Ereignissen (einer Stichprobe), die aus einer viel größeren Anzahl von Ereignissen (der Grundgesamtheit) ausgewählt wurden, Schlussfolgerungen gezogen werden, ist es wichtig, etwas über die Statistik von Stichproben zu verstehen.

In Thinking, Fast and Slow schreibt Daniel Kahneman: „Ein zufälliges Ereignis eignet sich per Definition nicht zur Erklärung, aber Sammlungen zufälliger Ereignisse verhalten sich sehr regelmäßig.“ Kahnemen fährt fort: „Extreme Ergebnisse (sowohl hoch als auch niedrig) sind eher in kleinen als in großen Proben zu finden. Diese Erklärung ist nicht kausal.“

Wir alle wissen intuitiv, dass „die Ergebnisse größerer Stichproben mehr Vertrauen verdienen als kleinere Stichproben, und selbst Menschen, die an statistischem Wissen unschuldig sind, haben von diesem Gesetz der großen Zahlen gehört.“

Das Prinzip der Regression zum Mittelwert besagt, dass die Ergebnisse mit zunehmender Stichprobengröße zu einer stabilen Häufigkeit konvergieren sollten. Wenn wir also Münzen umdrehen und den Anteil messen, mit dem wir Köpfe bekommen, würden wir erwarten, dass er sich nach einer großen Stichprobengröße von beispielsweise 100, aber nicht unbedingt 2 oder 4, 50% nähert.

In unseren Köpfen berücksichtigen wir oft nicht die Genauigkeit und Unsicherheit einer bestimmten Stichprobengröße.

Obwohl wir es alle intuitiv verstehen, fällt es uns im Moment der Verarbeitung und Entscheidungsfindung schwer zu erkennen, dass größere Stichproben bessere Repräsentationen sind als kleinere Stichproben.

Wir verstehen den Unterschied zwischen einer Stichprobengröße von 6 und 6.000.000 ziemlich gut, aber wir verstehen intuitiv nicht den Unterschied zwischen 200 und 3.000.

* * *

Diese Voreingenommenheit kommt in vielen Formen vor.

In einer telefonischen Umfrage unter 300 Senioren unterstützen 60% den Präsidenten.

Wenn Sie die Botschaft dieses Satzes in genau drei Worten zusammenfassen müssten, was wären sie? Mit ziemlicher Sicherheit würden Sie „elderly Support“ wählen.“ Diese Worte liefern den Kern der Geschichte. Die ausgelassenen Details der Umfrage, dass sie am Telefon mit einer Stichprobe von 300 durchgeführt wurde, interessieren an sich nicht; Sie liefern Hintergrundinformationen, die wenig Aufmerksamkeit erregen.“ Natürlich, wenn die Probe extrem war, sagen wir 6 Leute, würden Sie es in Frage stellen. Wenn Sie jedoch nicht vollständig mathematisch ausgestattet sind, beurteilen Sie intuitiv die Stichprobengröße und reagieren möglicherweise nicht anders auf eine Stichprobe von beispielsweise 150 und 3000. Das, auf den Punkt gebracht, ist genau die Bedeutung der Aussage, dass „die Menschen nicht ausreichend empfindlich auf Stichprobengröße sind.“

Ein Teil des Problems besteht darin, dass wir uns auf die Geschichte über die Zuverlässigkeit oder Robustheit der Ergebnisse konzentrieren.

System eins Denken, das ist unsere Intuition, ist „nicht anfällig für Zweifel. Es unterdrückt Mehrdeutigkeiten und konstruiert spontan Geschichten, die so kohärent wie möglich sind. Wenn die Botschaft nicht sofort negiert wird, verbreiten sich die Assoziationen, die sie hervorruft, als ob die Botschaft wahr wäre.“

Die Berücksichtigung der Stichprobengröße, es sei denn, sie ist extrem, ist nicht Teil unserer Intuition.

Kahneman schreibt:

Der übertriebene Glaube an kleine Stichproben ist nur ein Beispiel für eine allgemeinere Illusion – wir achten mehr auf den Inhalt von Nachrichten als auf Informationen über ihre Zuverlässigkeit und erhalten dadurch einen Blick auf die Welt um uns herum, der einfacher und kohärenter ist als die Daten rechtfertigen. Voreilige Schlüsse zu ziehen ist in der Welt unserer Vorstellungskraft ein sichererer Sport als in der Realität.

* * *

Im Ingenieurwesen können wir dies beispielsweise bei der Bewertung von Präzedenzfällen feststellen.

Steven Vick schreibt in Degrees of Belief: Subjektive Wahrscheinlichkeit und technisches Urteil, schreibt:

Wenn etwas zuvor funktioniert hat, wird davon ausgegangen, dass es unbedingt wieder funktioniert. Das heißt, die Wahrscheinlichkeit eines zukünftigen Erfolgs, der vom Erfolg der Vergangenheit abhängt, wird als 1,0 angenommen. Dementsprechend würde angenommen, dass eine Struktur, die ein Erdbeben überlebt hat, in der Lage ist, mit der gleichen Größe und Entfernung zu überleben, wobei die zugrunde liegende Annahme besteht, dass die operativen kausalen Faktoren gleich sein müssen. Die seismischen Bodenbewegungen sind jedoch in ihrem Frequenzgehalt, ihren Dämpfungseigenschaften und vielen anderen Faktoren recht unterschiedlich, so dass ein Präzedenzfall für ein einzelnes Erdbeben eine sehr kleine Stichprobengröße darstellt.

Bayes’sches Denken sagt uns, dass ein einziger Erfolg ohne andere Informationen die Überlebenswahrscheinlichkeit in der Zukunft erhöht.

In gewisser Weise hängt dies mit der Robustheit zusammen. Je mehr du bewältigen musstest und du überlebst immer noch, desto robuster bist du.

Schauen wir uns einige andere Beispiele an.

* * *

Krankenhaus

Daniel Kahneman und Amos Tversky demonstrierten unsere Unempfindlichkeit gegenüber der Stichprobengröße mit der folgenden Frage:

Eine bestimmte Stadt wird von zwei Krankenhäusern versorgt. Im größeren Krankenhaus werden täglich etwa 45 Babys geboren, und im kleineren Krankenhaus werden täglich etwa 15 Babys geboren. Wie Sie wissen, sind etwa 50% aller Babys Jungen. Der genaue Prozentsatz variiert jedoch von Tag zu Tag. Manchmal kann es höher als 50% sein, manchmal niedriger. Für einen Zeitraum von 1 Jahr zeichnete jedes Krankenhaus die Tage auf, an denen mehr als 60% der geborenen Babys Jungen waren. Welches Krankenhaus hat Ihrer Meinung nach mehr solcher Tage verzeichnet?

  1. Das größere Krankenhaus
  2. Das kleinere Krankenhaus
  3. Ungefähr gleich (dh innerhalb von 5% voneinander)

Die meisten Leute wählen falsch 3. Die richtige Antwort ist jedoch 2.

Max Bazerman erklärt in Judgement in Managerial Decision Making:

Die meisten Personen wählen 3 und erwarten, dass die beiden Krankenhäuser eine ähnliche Anzahl von Tagen aufzeichnen, an denen 60 Prozent oder mehr der an Bord befindlichen Babys Jungen sind. Die Leute scheinen eine grundlegende Vorstellung davon zu haben, wie ungewöhnlich es ist, dass 60 Prozent eines zufälligen Ereignisses in eine bestimmte Richtung ablaufen. Statistiken sagen uns jedoch, dass wir viel häufiger 60 Prozent der männlichen Babys in einer kleineren Stichprobe beobachten als in einer größeren Stichprobe.“ Dieser Effekt ist leicht zu verstehen. Überlegen Sie, was wahrscheinlicher ist: immer mehr als 60 Prozent Köpfe in drei Flips der Münze oder immer mehr als 60 Prozent Köpfe in 3.000 Flips.

* * *

Ein weiteres interessantes Beispiel kommt vom Poker.

In kurzen Zeiträumen ist Glück wichtiger als Geschicklichkeit. Je mehr Glück zum Ergebnis beiträgt, desto größer ist die Stichprobe, die Sie benötigen, um zwischen den Fähigkeiten einer Person und dem reinen Zufall zu unterscheiden.

David Einhorn erklärt.

Die Leute fragen mich „Is poker luck?“ und „Ist Glück investieren?“

Die Antwort ist, überhaupt nicht. Aber Stichprobengrößen sind wichtig. An jedem Tag kann ein guter Investor oder ein guter Pokerspieler Geld verlieren. Jede Aktieninvestition kann sich als Verlierer herausstellen, egal wie groß die Kante erscheint. Gleiches gilt für eine Pokerhand. Ein Pokerturnier unterscheidet sich nicht sehr von einem Münzwurf-Wettbewerb und auch nicht sechs Monate Investitionsergebnisse.

Auf dieser Basis spielt das Glück eine Rolle. Aber im Laufe der Zeit – über Tausende von Händen gegen eine Vielzahl von Spielern und über Hunderte von Investitionen in einer Vielzahl von Marktumgebungen – gewinnt das Können.

Mit zunehmender Anzahl der gespielten Hände spielt Geschicklichkeit eine immer größere Rolle und Glück spielt weniger eine Rolle.

* * *

Aber das geht weit über Krankenhäuser und Poker. Baseball ist ein weiteres gutes Beispiel. Über eine lange Saison, Chancen sind die besten Teams an die Spitze steigen. Kurzfristig kann alles passieren. Wenn Sie sich die letzten 10 Spiele der Saison ansehen, stehen die Chancen gut, dass sie nicht repräsentativ dafür sind, wo die Dinge nach der vollen Saison mit 162 Spielen landen werden. Kurzfristig spielt das Glück eine zu große Rolle.

In Moneyball schreibt Michael Lewis: „In einer Fünf-Spiele-Serie wird das schlechteste Team im Baseball das Beste in etwa 15% der Fälle schlagen.“

* * *

Wenn Sie Menschen fördern oder mit Kollegen zusammenarbeiten, sollten Sie diese Voreingenommenheit ebenfalls berücksichtigen.

Wenn Sie davon ausgehen, dass Leistung bei der Arbeit eine Kombination aus Geschick und Glück ist, können Sie leicht erkennen, dass die Stichprobengröße für die Zuverlässigkeit der Leistung relevant ist.

Das Performance-Sampling funktioniert wie alles andere, je größer die Stichprobengröße, desto größer die Verringerung der Unsicherheit und desto wahrscheinlicher ist es, dass Sie gute Entscheidungen treffen.

Dies wurde von einem meiner Lieblingsdenker, James March, untersucht. Er nennt es den False-Record-Effekt.

Er schreibt:

Falscher Rekordeffekt. Eine Gruppe von Managern mit identischen (moderaten) Fähigkeiten wird kurzfristig erhebliche Unterschiede in ihren Leistungsaufzeichnungen aufweisen. Einige werden an einem Ende der Verteilung gefunden und als hervorragend angesehen; andere werden am anderen Ende sein und als unwirksam angesehen werden. Je länger ein Manager in einem Job bleibt, desto geringer ist der wahrscheinliche Unterschied zwischen der beobachteten Leistungsbilanz und der tatsächlichen Fähigkeit. Die Zeit am Arbeitsplatz erhöhte die erwartete Stichprobe von Beobachtungen, reduzierte den erwarteten Stichprobenfehler und reduzierte somit die Änderung, dass der Manager (oder seine Fähigkeit) entweder befördert oder verlassen wird.

Heldeneffekt. Innerhalb einer Gruppe von Managern mit unterschiedlichen Fähigkeiten ist es umso unwahrscheinlicher, dass sie gerechtfertigt sind, je schneller die Beförderungsrate ist. Leistungsnachweise werden durch eine Kombination von zugrunde liegenden Fähigkeiten und Stichprobenvariationen erstellt. Manager mit guten Aufzeichnungen haben eher hohe Fähigkeiten als Manager mit schlechten Aufzeichnungen, aber die Zuverlässigkeit der Differenzierung ist gering, wenn die Aufzeichnungen kurz sind.

( Mir ist klar, dass Promotionen viel komplizierter sind, als ich es zulasse. Einige Jobs sind zum Beispiel schwieriger als andere. Es wird schnell unordentlich und das ist Teil des Problems. Oft, wenn die Dinge chaotisch werden, schalten wir unser Gehirn aus und erfinden die einfachste Erklärung, die wir können. Einfach, aber falsch. Ich weise nur darauf hin, dass die Stichprobengröße ein Eingang in die Entscheidung ist. Ich befürworte keineswegs einen „experience is best“ -Ansatz, da dies mit einer Vielzahl anderer Probleme einhergeht.)

* * *

Diese Voreingenommenheit wird auch in der Werbung gegen Sie verwendet.

Wenn Sie das nächste Mal einen Werbespot mit der Aufschrift „4 von 5 Ärzten empfehlen ….“ Diese Ergebnisse sind bedeutungslos, ohne die Stichprobengröße zu kennen. Die Chancen stehen ziemlich gut, dass die Stichprobengröße 5 beträgt.

* * *

Große Stichprobengrößen sind kein Allheilmittel. Die Dinge ändern sich. Systeme entwickeln sich weiter und das Vertrauen in diese Ergebnisse kann ebenfalls unbegründet sein.

Der Schlüssel ist zu jeder Zeit zu denken.

Diese Verzerrung führt zu einer ganzen Reihe von Dingen, wie zum Beispiel:
– Risiko unterschätzen
– Risiko überschätzen
– übermäßiges Vertrauen in Trends / Muster
– übermäßiges Vertrauen in das Fehlen von Nebenwirkungen / Problemen

Die Verzerrung von der Unempfindlichkeit zur Stichprobengröße ist Teil des Farnam Street–Gitterwerks mentaler Modelle.

Verschlagwortet: Bias von der Unempfindlichkeit zur Regression, Daniel Kahneman, David Einhorn, Falscher Aufzeichnungseffekt, Max Bazerman, Mentales Modell, Statistik

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.