Base rate fallacy

Der Base Rate Fallacy, auch Base Rate Neglect oder Base Rate Bias genannt, ist eine Art von Trugschluss, bei dem Menschen dazu neigen, die Basisrate (z. B. die allgemeine Prävalenz) zugunsten der individualisierenden Informationen (d. h. Informationen, die sich nur auf einen bestimmten Fall beziehen) zu ignorieren. Wenn jemand zum Beispiel hört, dass ein Freund sehr schüchtern und ruhig ist, könnte er denken, dass der Freund eher Bibliothekar als Verkäufer ist. Es gibt jedoch insgesamt viel mehr Verkäufer als Bibliothekare - daher ist es wahrscheinlicher, dass der Freund tatsächlich ein Verkäufer ist, auch wenn ein größerer Anteil der Bibliothekare auf die Beschreibung passt, schüchtern und still zu sein. Die Vernachlässigung des Basissatzes ist eine spezielle Form der allgemeineren Vernachlässigung der Ausdehnung.
Sie wird auch als prosecutor's fallacy oder defense attorney's fallacy bezeichnet, wenn sie auf die Ergebnisse statistischer Tests (z. B. DNA-Tests) im Rahmen von Gerichtsverfahren angewendet wird. Diese Begriffe wurden 1987 von William C. Thompson und Edward Schumann eingeführt, obwohl argumentiert wurde, dass ihre Definition des Fehlschlusses des Staatsanwalts sich auf viele zusätzliche ungültige Schuld- oder Haftungszuschreibungen erstreckt, die nicht als Fehler in den Basisraten oder im Bayes-Theorem analysiert werden können.
Falsches Positiv-Paradoxon
Ein Beispiel für den Basisratenfehler ist das falsch-positive Paradoxon (auch bekannt als Genauigkeitsparadoxon). Dieses Paradoxon beschreibt Situationen, in denen es mehr falsch-positive als richtig-positive Testergebnisse gibt (was bedeutet, dass der Klassifikator eine niedrige Präzision aufweist). Wenn beispielsweise eine Gesichtserkennungskamera gesuchte Kriminelle mit einer Genauigkeit von 99 % identifizieren kann, aber 10.000 Personen pro Tag analysiert, wird die hohe Genauigkeit durch die Anzahl der Tests aufgewogen. Die Wahrscheinlichkeit eines positiven Testergebnisses hängt nicht nur von der Genauigkeit des Tests, sondern auch von den Merkmalen der Stichprobenpopulation ab. Das grundlegende Problem besteht darin, dass die weitaus höhere Prävalenz der echten Negativtests bedeutet, dass der Pool der positiv getesteten Personen von falsch-positiven Ergebnissen dominiert wird, da selbst ein kleiner Teil der viel größeren [negativen] Gruppe eine größere Anzahl von angezeigten positiven Ergebnissen hervorbringt als der größere Teil der viel kleineren [positiven] Gruppe.
Wenn die Prävalenz, d. h. der Anteil derjenigen, die an einer bestimmten Krankheit leiden, niedriger ist als die Falsch-Positiv-Rate des Tests, werden selbst Tests, die ein sehr geringes Risiko eines falsch-positiven Ergebnisses "in einem Einzelfall" haben, "insgesamt" mehr falsch- als richtig-positive Ergebnisse liefern.
Dies ist besonders dann kontraintuitiv, wenn ein positives Ergebnis eines Tests in einer Population mit niedriger Prävalenz interpretiert wird, nachdem zuvor positive Ergebnisse aus einer Population mit hoher Prävalenz ermittelt wurden. Wenn die Falsch-Positiv-Rate des Tests höher ist als der Anteil der neuen Population mit der Erkrankung, dann kann ein Testadministrator, dessen Erfahrung aus Tests in einer Population mit hoher Prävalenz stammt, aus der Erfahrung schließen, dass ein positives Testergebnis in der Regel auf ein positives Subjekt hinweist, während in Wirklichkeit ein Falsch-Positiv sehr viel wahrscheinlicher ist.
Beispiele
Beispiel 1: Krankheit
Hochprävalente Bevölkerung
Number of people |
Infected | Uninfected | Total |
---|---|---|---|
Test positive |
400 (true positive) |
30 (false positive) |
430 |
Test negative |
0 (false negative) |
570 (true negative) |
570 |
Total | 400 | 600 | 1000 |
Stellen Sie sich vor, Sie führen einen Test auf eine Infektionskrankheit an einer Population A von 1.000 Personen durch, von denen 40 % infiziert sind. Der Test hat eine falsch-positive Rate von 5% (0,05) und eine falsch-negative Rate von Null. Das erwartete Ergebnis der 1.000 Tests in der Population A wäre:
- Infiziert und Test zeigt Krankheit an (richtig positiv)
- 1000 × 40/100 = 400 Personen würden ein wahres Positiv erhalten
- Nicht infiziert und der Test zeigt eine Krankheit an (falsch positiv)
- 1000 × 100 – 40/100 × 0,05 = 30 Personen würden ein falsches Positiv erhalten
Die restlichen 570 Tests sind korrekt negativ.
In der Population A könnte also eine Person, die einen positiven Test erhält, zu über 93 % sicher sein (400/30 + 400), dass dieser Test eine Infektion korrekt anzeigt.
Bevölkerung mit niedriger Prävalenz
Number of people |
Infected | Uninfected | Total |
---|---|---|---|
Test positive |
20 (true positive) |
49 (false positive) |
69 |
Test negative |
0 (false negative) |
931 (true negative) |
931 |
Total | 20 | 980 | 1000 |
Betrachten wir nun denselben Test für die Population B, in der nur 2 % infiziert sind. Das erwartete Ergebnis von 1000 Tests an der Population B wäre:
- Infiziert und Test zeigt Krankheit an (echt positiv)
- 1000 × 2/100 = 20 Personen würden ein echtes Positiv erhalten
- Nicht infiziert und der Test zeigt eine Krankheit an (falsch positiv)
- 1000 × 100 – 2/100 × 0,05 = 49 Personen würden ein falsches Positiv erhalten
Die restlichen 931 Tests sind korrekt negativ.
In der Population B sind nur 20 der insgesamt 69 Personen mit einem positiven Testergebnis tatsächlich infiziert. Die Wahrscheinlichkeit, tatsächlich infiziert zu sein, nachdem einem mitgeteilt wurde, dass man infiziert ist, beträgt also nur 29 % (20/20 + 49) bei einem Test, der ansonsten "95 % genau" zu sein scheint.
Ein Tester mit Erfahrung in der Gruppe "A" könnte es als paradox empfinden, dass in der Gruppe "B" ein Ergebnis, das normalerweise korrekt eine Infektion anzeigt, nun in der Regel ein falsches Positiv ist. Die Verwechslung der nachträglichen Wahrscheinlichkeit einer Infektion mit der vorherigen Wahrscheinlichkeit, ein falsches Positiv zu erhalten, ist ein natürlicher Fehler nach Erhalt eines gesundheitsgefährdenden Testergebnisses.
Beispiel 2: Betrunkene Autofahrer
Stellen Sie sich vor, eine Gruppe von Polizeibeamten verfügt über Atemalkoholtester, die in 5 % der Fälle, in denen der Fahrer nüchtern ist, eine falsche Trunkenheit anzeigen. Die Atemalkoholtester versagen jedoch nie bei der Feststellung einer wirklich betrunkenen Person. Einer von tausend Autofahrern ist betrunken unterwegs. Angenommen, die Polizeibeamten halten zufällig einen Fahrer an, um einen Alkoholtest durchzuführen. Dieser zeigt an, dass der Fahrer betrunken ist. Weitere Informationen sind über ihn nicht bekannt.
Viele würden die Wahrscheinlichkeit, dass der Fahrer betrunken ist, auf 95 % schätzen, aber die richtige Wahrscheinlichkeit liegt bei etwa 2 %.
Dies lässt sich wie folgt erklären: Von 1.000 getesteten Fahrern ist im Durchschnitt
- 1 Fahrer ist betrunken, und es ist zu 100 % sicher, dass bei diesem Fahrer ein wahres positives Testergebnis vorliegt, also gibt es 1 wahres positives Testergebnis
- 999 Fahrer sind nicht betrunken, und unter diesen Fahrern gibt es 5% falsch positive Testergebnisse, also 49,95 falsch positive Testergebnisse
Daher ist die Wahrscheinlichkeit, dass ein bestimmter Fahrer unter den 1 + 49,95 = 50,95 positiven Testergebnissen tatsächlich betrunken ist, Fehler beim Parsen (Syntaxfehler): {\displaystyle 1/50,95 \ca. 0,019627} .
Die Gültigkeit dieses Ergebnisses hängt jedoch davon ab, ob die ursprüngliche Annahme zutrifft, dass der Polizeibeamte den Fahrer wirklich willkürlich angehalten hat, und nicht wegen einer schlechten Fahrweise. Wenn dieser oder ein anderer nicht willkürlicher Grund für die Anhaltung des Fahrers vorlag, dann beinhaltet die Berechnung auch die Wahrscheinlichkeit, dass ein betrunkener Fahrer kompetent fährt und ein nicht betrunkener Fahrer (nicht) kompetent fährt.
Formal kann dieselbe Wahrscheinlichkeit von etwa 0,02 mit Hilfe des Bayes'schen Theorems ermittelt werden. Ziel ist es, die Wahrscheinlichkeit zu ermitteln, dass der Fahrer betrunken ist, wenn das Atemalkoholtestgerät anzeigt, dass er betrunken ist, was wie folgt dargestellt werden kann wobei D bedeutet, dass der Alkoholtester anzeigt, dass der Fahrer betrunken ist. Mit Hilfe des Bayes'schen Theorems, In diesem Szenario sind die folgenden Informationen bekannt:
- Fehler beim Parsen (Syntaxfehler): {\displaystyle p(\mathrm{nüchtern}) = 0,999,}
- und
Wie aus der Formel ersichtlich ist, benötigt man für den Satz von Bayes p(D), der sich aus den vorangegangenen Werten mit Hilfe des Gesetzes der Gesamtwahrscheinlichkeit berechnen lässt:
woraus sich ergibt Fehler beim Parsen (Unbekannte Funktion „\mal“): {\displaystyle p(D)= (1,00 \mal 0,001) + (0,05 \mal 0,999) = 0,05095.} Setzt man diese Zahlen in das Bayes-Theorem ein, so erhält man Fehler beim Parsen (Syntaxfehler): {\displaystyle p(\mathrm{drunk}\mid D) = \frac{1.00 \times 0.001}{0.05095} \ca. 0,019627,} das ist die Genauigkeit des Tests.
Beispiel 3: Identifizierung von Terroristen
In einer Stadt mit 1 Million Einwohnern soll es 100 Terroristen und 999.900 Nicht-Terroristen geben. Zur Vereinfachung des Beispiels wird angenommen, dass alle in der Stadt anwesenden Personen Einwohner sind. Somit beträgt die Basiswahrscheinlichkeit, dass ein zufällig ausgewählter Einwohner der Stadt ein Terrorist ist, 0,0001, und die Basiswahrscheinlichkeit, dass derselbe Einwohner ein Nicht-Terrorist ist, 0,9999. Um die Terroristen zu fangen, installiert die Stadt ein Alarmsystem mit einer Überwachungskamera und einer automatischen Gesichtserkennungssoftware.
Die Software hat zwei Fehlerquoten von 1 %:
- Die Falsch-Negativ-Rate: Wenn die Kamera einen Terroristen scannt, wird in 99 % der Fälle eine Glocke läuten, in 1 % der Fälle wird sie nicht läuten.
- Die Falsch-Positiv-Rate: Wenn die Kamera einen Nicht-Terroristen scannt, wird die Glocke in 99 % der Fälle nicht läuten, aber in 1 % der Fälle wird sie läuten.
Nehmen wir nun an, dass ein Bewohner den Alarm auslöst. Jemand, der den Base-Rate-Fehlschluss macht, würde daraus schließen, dass die Wahrscheinlichkeit, dass es sich bei der erfassten Person um einen Terroristen handelt, 99 % beträgt. Obwohl diese Schlussfolgerung sinnvoll zu sein scheint, ist sie in Wirklichkeit ein Fehlschluss, und eine Berechnung weiter unten wird zeigen, dass die Wahrscheinlichkeit, dass es sich um einen Terroristen handelt, tatsächlich bei 1 % und nicht bei 99 % liegt.
Der Trugschluss entsteht durch die Verwechslung zweier unterschiedlicher Fehlerquoten. Die "Anzahl der Nicht-Terroristen pro 100 Glocken" (P(¬B | T), oder die Wahrscheinlichkeit, dass die Glocke nicht läutet, wenn der Bewohner ein Terrorist ist) und die "Anzahl der Nicht-Terroristen pro 100 Glocken" (P(¬T | B), oder die Wahrscheinlichkeit, dass der Bewohner ein Nicht-Terrorist ist, wenn die Glocke läutet) sind nicht miteinander verbundene Größen; die eine ist nicht notwendigerweise gleich - oder auch nur nahe an der anderen. Um dies zu zeigen, betrachten wir, was passiert, wenn ein identisches Alarmsystem in einer zweiten Stadt ohne Terroristen eingerichtet wird. Wie in der ersten Stadt ertönt der Alarm bei einem von 100 erkannten nicht-terroristischen Einwohnern, aber anders als in der ersten Stadt ertönt der Alarm nie bei einem Terroristen. In 100 % aller Fälle, in denen der Alarm ertönt, handelt es sich also um Nicht-Terroristen, aber eine Falsch-Negativ-Rate kann nicht einmal berechnet werden. Die "Anzahl der Nicht-Terroristen pro 100 Glockenschläge" in dieser Stadt ist 100, aber P(T | B) = 0 %. Die Wahrscheinlichkeit, dass beim Läuten der Glocke ein Terrorist entdeckt wird, ist gleich Null.
Stellen Sie sich vor, dass die gesamte Bevölkerung der ersten Stadt mit einer Million Menschen vor der Kamera vorbeigeht. Etwa 99 der 100 Terroristen werden den Alarm auslösen - ebenso wie etwa 9.999 der 999.900 Nicht-Terroristen. Daher werden etwa 10.098 Personen den Alarm auslösen, von denen etwa 99 Terroristen sein werden. Die Wahrscheinlichkeit, dass eine Person, die den Alarm auslöst, tatsächlich ein Terrorist ist, beträgt nur etwa 99 zu 10.098, also weniger als 1 % und sehr, sehr weit unter der ursprünglichen Annahme von 99 %.
Der Irrtum der Basisrate ist in diesem Beispiel deshalb so irreführend, weil es viel mehr Nicht-Terroristen als Terroristen gibt und die Zahl der falsch-positiven Fälle (Nicht-Terroristen, die als Terroristen gescannt werden) so viel größer ist als die der echten positiven Fälle (Terroristen, die als Terroristen gescannt werden).
Mehrere Praktiker haben argumentiert, dass der Einsatz von Data Mining und prädiktiven Algorithmen zur Identifizierung von Terroristen aufgrund des Falsch-Positiv-Paradoxons nicht praktikabel ist, da die Basisrate des Terrorismus extrem niedrig ist. Die Schätzungen der Anzahl der falsch-positiven Ergebnisse für jedes richtige Ergebnis reichen von über zehntausend bis zu einer Milliarde; folglich wäre die Untersuchung jeder einzelnen Spur kosten- und zeitaufwändig. Der Genauigkeitsgrad, der erforderlich ist, um diese Modelle praktikabel zu machen, ist wahrscheinlich unerreichbar. In erster Linie bedeutet die niedrige Basisrate des Terrorismus auch, dass es an Daten mangelt, mit denen ein genauer Algorithmus erstellt werden kann. Darüber hinaus sind im Zusammenhang mit der Aufdeckung von Terrorismus falsch-negative Ergebnisse höchst unerwünscht und müssen daher so weit wie möglich minimiert werden; dies erfordert jedoch eine Erhöhung der Sensitivität auf Kosten der Spezifität, wodurch die falsch-positiven Ergebnisse zunehmen. Es ist auch fraglich, ob die Verwendung solcher Modelle durch die Strafverfolgungsbehörden die erforderliche Beweislast erfüllen würde, da über 99 % der Ergebnisse falsch-positiv sein würden.
Beispiel 4: Biologische Tests an einem Verdächtigen
Ein Verbrechen wird begangen. Die gerichtsmedizinische Analyse ergibt, dass der Täter eine bestimmte Blutgruppe hat, die bei 10 % der Bevölkerung vorkommt. Ein Verdächtiger wird verhaftet, und es wird festgestellt, dass er dieselbe Blutgruppe hat.
Ein Staatsanwalt könnte den Verdächtigen allein auf dieser Grundlage des Verbrechens anklagen und bei der Verhandlung behaupten, dass die Wahrscheinlichkeit, dass der Angeklagte schuldig ist, 90 % beträgt.
Diese Schlussfolgerung ist jedoch nur dann annähernd richtig, wenn der Angeklagte als Hauptverdächtiger auf der Grundlage belastbarer Beweise ausgewählt wurde, die vor dem Bluttest entdeckt wurden und in keinem Zusammenhang mit diesem stehen. Andernfalls ist die dargelegte Argumentation fehlerhaft, da sie die hohe vorherige Wahrscheinlichkeit (d. h. vor dem Bluttest) übersieht, dass es sich bei dem Angeklagten um eine zufällig ausgewählte unschuldige Person handelt. Nehmen wir zum Beispiel an, dass in der Stadt, in der das Verbrechen begangen wurde, 1000 Menschen leben. Das bedeutet, dass dort 100 Menschen leben, die die Blutgruppe des Täters haben, von denen aber nur einer der wahre Täter ist. Die tatsächliche Wahrscheinlichkeit, dass der Angeklagte schuldig ist - nur aufgrund der Tatsache, dass seine Blutgruppe mit der des Mörders übereinstimmt - beträgt also nur 1 %, also weit weniger als die vom Staatsanwalt behaupteten 90 %.
Der Irrtum des Staatsanwalts besteht in der Annahme, dass die vorherige Wahrscheinlichkeit einer zufälligen Übereinstimmung gleich der Wahrscheinlichkeit ist, dass der Angeklagte unschuldig ist. Wenn ein Staatsanwalt einen Sachverständigen befragt, kann er fragen: "Die Wahrscheinlichkeit, dass diese Beweise bei einem Unschuldigen gefunden werden, ist so gering, dass die Geschworenen die Möglichkeit, dass der Angeklagte unschuldig ist, getrost außer Acht lassen können, richtig?" Die Behauptung setzt voraus, dass die Wahrscheinlichkeit, dass Beweise bei einem Unschuldigen gefunden werden, dieselbe ist wie die Wahrscheinlichkeit, dass ein Mann unschuldig ist, wenn die Beweise bei ihm gefunden wurden, was nicht stimmt. Während die erstere aufgrund guter forensischer Beweisverfahren in der Regel gering ist (10 % im vorigen Beispiel), steht die letztere (99 % in diesem Beispiel) in keinem direkten Zusammenhang damit und wird oft viel höher sein, da sie von der wahrscheinlich recht hohen Wahrscheinlichkeit abhängt, dass der Angeklagte zufällig unschuldig ist.
Beispiele aus dem Recht
O. J. Simpson-Prozess
O. J. Simpson wurde 1995 wegen der Morde an seiner Ex-Frau Nicole Brown Simpson und ihrem Freund Ronald Goldman vor Gericht gestellt und freigesprochen.
Das Blut am Tatort stimmte mit dem von Simpson überein und wies Merkmale auf, die bei 1 von 400 Menschen vorkommen. Die Verteidigung argumentierte jedoch, dass die Anzahl der Menschen aus Los Angeles, die mit der Probe übereinstimmen, ein ganzes Fußballstadion füllen könnte und dass die Zahl von 1 zu 400 unbrauchbar sei. Es wäre falsch und ein Beispiel für einen Fehlschluss des Staatsanwalts gewesen, sich allein auf die Zahl "1 zu 400" zu verlassen, um daraus abzuleiten, dass eine bestimmte Person, die mit der Probe übereinstimmt, wahrscheinlich der Täter ist.

In demselben Prozess legte die Staatsanwaltschaft Beweise dafür vor, dass Simpson gegenüber seiner Frau gewalttätig gewesen war. Die Verteidigung argumentierte, dass nur eine von 2500 Frauen ermordet wurde, die in ihrer Ehe missbraucht wurden, und dass eine Vorgeschichte von Simpsons Gewalttätigkeit gegenüber seiner Frau für den Prozess irrelevant sei. Die Argumentation der Verteidigung war jedoch trügerisch. Nach Ansicht des Autors Gerd Gigerenzer erfordert die korrekte Wahrscheinlichkeit einen zusätzlichen Kontext: Simpsons Frau war nicht nur häuslicher Gewalt ausgesetzt, sondern vielmehr häuslicher Gewalt (durch Simpson) and ausgesetzt und (von jemandem) getötet worden. Gigerenzer schreibt: "Die Wahrscheinlichkeit, dass ein Gewalttäter seine Partnerin tatsächlich ermordet hat, wenn sie getötet wurde, liegt bei 8 zu 9 oder etwa 90 %. Zwar enden die meisten Fälle von Misshandlung in der Ehe nicht mit Mord, aber die meisten Fälle von Mord, bei denen es eine Vorgeschichte von Misshandlung in der Ehe gibt, wurden von dem Ehepartner begangen.
Fall Sally Clark
Sally Clark, eine britische Frau, wurde 1998 angeklagt, ihr erstes Kind im Alter von 11 Wochen und dann ihr zweites Kind im Alter von 8 Wochen getötet zu haben. Die Staatsanwaltschaft ließ den Sachverständigen Sir Roy Meadow, einen Professor und beratenden Kinderarzt, aussagen, dass die Wahrscheinlichkeit, dass zwei Kinder in derselben Familie an SIDS sterben, etwa 1 zu 73 Millionen beträgt. Das war viel weniger häufig als die tatsächliche Rate, die in historischen Daten gemessen wurde – Meadow schätzte sie anhand von Daten über einzelne SIDS-Todesfälle und der Annahme, dass die Wahrscheinlichkeit solcher Todesfälle zwischen Säuglingen unkorreliert sein sollte.
Meadow räumte ein, dass 1:73 Millionen kein Ding der Unmöglichkeit sei, argumentierte aber, dass solche Unfälle "einmal alle hundert Jahre" vorkämen und dass es in einem Land mit 15 Millionen 2-Kind-Familien sehr viel wahrscheinlicher sei, dass die Doppeltodesfälle auf das Münchhausen-Syndrom zurückzuführen seien als auf einen solch seltenen Unfall. Es gibt jedoch gute Gründe für die Annahme, dass die Wahrscheinlichkeit eines SIDS-Todes in einer Familie erheblich größer ist, wenn bereits ein früheres Kind unter diesen Umständen gestorben ist (eine genetische Veranlagung für SIDS dürfte diese angenommene statistische Unabhängigkeit entkräften), so dass einige Familien anfälliger für SIDS sind und der Fehler ein Ergebnis des ökologischen Fehlschlusses ist. Die Wahrscheinlichkeit von zwei SIDS-Todesfällen in ein und derselben Familie kann nicht solide geschätzt werden, indem man die Wahrscheinlichkeit eines einzigen solchen Todesfalls in allen ansonsten ähnlichen Familien quadriert.
Die Zahl 1:73 Millionen unterschätzt die Wahrscheinlichkeit von zwei aufeinanderfolgenden Unfällen erheblich, aber selbst wenn diese Einschätzung zutreffend wäre, scheint das Gericht die Tatsache übersehen zu haben, dass die Zahl 1:73 Millionen für sich genommen nichts bedeutet. Als "a priori"-Wahrscheinlichkeit hätte sie gegen die "a priori"-Wahrscheinlichkeiten der Alternativen abgewogen werden müssen. Da zwei Todesfälle aufgetreten waren, muss eine der folgenden Erklärungen zutreffen, die alle "a priori" extrem unwahrscheinlich sind:
- Zwei aufeinanderfolgende Todesfälle in derselben Familie, beide durch SIDS
- Doppelmord (der Fall der Staatsanwaltschaft)
- Andere Möglichkeiten (einschließlich eines Tötungsdelikts und eines Falls von SIDS)
Es ist unklar, ob während des Prozesses jemals eine Schätzung der Wahrscheinlichkeit für die zweite Möglichkeit vorgeschlagen wurde oder ob der Vergleich der ersten beiden Wahrscheinlichkeiten als die wichtigste Schätzung in der statistischen Analyse verstanden wurde, mit der die Argumente der Staatsanwaltschaft gegen die der Unschuldsvermutung abgewogen wurden.
Clark wurde 1999 verurteilt, was zu einer Pressemitteilung der Royal Statistical Society führte, die auf die Fehler hinwies.
Im Jahr 2002 versuchte Ray Hill (Mathematikprofessor in Salford), die Chancen dieser beiden möglichen Erklärungen genau zu vergleichen; er kam zu dem Schluss, dass aufeinanderfolgende Unfälle zwischen 4,5 und 9 Mal wahrscheinlicher sind als aufeinanderfolgende Morde, so dass die "a priori"-Wahrscheinlichkeit für Clarks Schuld zwischen 4,5 zu 1 und 9 zu 1 lag.
Nachdem das Gericht festgestellt hatte, dass der Gerichtsmediziner, der die beiden Babys untersucht hatte, entlastende Beweise zurückgehalten hatte, hob ein höheres Gericht am 29. Januar 2003 Clarks Verurteilung auf.
Erkenntnisse in der Psychologie
In Experimenten wurde festgestellt, dass Menschen individuelle Informationen gegenüber allgemeinen Informationen bevorzugen, wenn erstere verfügbar sind.
In einigen Experimenten wurden Studenten gebeten, den Notendurchschnitt (GPA) hypothetischer Studenten zu schätzen. Wurden ihnen relevante Statistiken über die Verteilung des Notendurchschnitts vorgelegt, so tendierten sie dazu, diese zu ignorieren, wenn sie beschreibende Informationen über den jeweiligen Schüler erhielten, selbst wenn die neuen beschreibenden Informationen offensichtlich wenig oder gar keine Bedeutung für die schulischen Leistungen hatten. Dieses Ergebnis wurde genutzt, um zu argumentieren, dass Vorstellungsgespräche ein unnötiger Teil des Zulassungsverfahrens für Hochschulen sind, da die Interviewer nicht in der Lage sind, erfolgreiche Kandidaten besser auszuwählen als mit einfachen Statistiken.
Die Psychologen Daniel Kahneman und Amos Tversky versuchten, dieses Ergebnis mit einer einfachen Regel oder "Heuristik" namens Repräsentativität zu erklären. Sie argumentierten, dass viele Urteile, die sich auf die Wahrscheinlichkeit oder auf Ursache und Wirkung beziehen, darauf basieren, wie repräsentativ eine Sache für eine andere oder für eine Kategorie ist. Kahneman betrachtet die Vernachlässigung des Basissatzes als eine besondere Form der Vernachlässigung der Ausdehnung. Richard Nisbett hat argumentiert, dass einige Attributionsfehler wie der fundamentale Attributionsfehler Instanzen des Basisratenfehlers sind: Menschen nutzen nicht die "Konsensinformationen" (die "Basisrate") darüber, wie sich andere in ähnlichen Situationen verhalten haben, und ziehen stattdessen einfachere dispositionelle Attributionen vor.
In der Psychologie gibt es eine beträchtliche Debatte über die Bedingungen, unter denen Menschen Informationen über die Basisrate schätzen oder nicht. Forscher im Bereich Heuristiken und Biases haben empirische Befunde hervorgehoben, die zeigen, dass Menschen dazu neigen, Basisraten zu ignorieren und Schlussfolgerungen zu ziehen, die gegen bestimmte Normen des probabilistischen Denkens verstoßen, wie z. B. das Bayes-Theorem. Die Schlussfolgerung, die aus dieser Forschungsrichtung gezogen wurde, war, dass das menschliche probabilistische Denken grundlegend fehlerhaft und fehleranfällig ist. Andere Forscher haben die Verbindung zwischen kognitiven Prozessen und Informationsformaten hervorgehoben und argumentiert, dass solche Schlussfolgerungen nicht generell gerechtfertigt sind.
Betrachten wir noch einmal Beispiel 2 von oben. Die erforderliche Schlussfolgerung besteht darin, die (nachträgliche) Wahrscheinlichkeit zu schätzen, dass ein (zufällig ausgewählter) Fahrer betrunken ist, wenn der Alkoholtest positiv ausfällt. Formal kann diese Wahrscheinlichkeit mit dem Bayes-Theorem berechnet werden, wie oben gezeigt. Es gibt jedoch verschiedene Möglichkeiten, die relevanten Informationen darzustellen. Betrachten Sie die folgende, formal äquivalente Variante des Problems:
- 1 von 1000 Autofahrern fährt betrunken. Die Atemalkoholtester versagen nie, um eine wirklich betrunkene Person zu erkennen. Bei 50 der 999 Fahrer, die nicht betrunken sind, zeigt der Alkoholtester fälschlicherweise Trunkenheit an. Nehmen wir an, die Polizisten halten zufällig einen Fahrer an und zwingen ihn, einen Alkoholtest zu machen. Dieser zeigt an, dass der Fahrer betrunken ist. Es sind keine weiteren Informationen über den Fahrer bekannt. Schätzen Sie die Wahrscheinlichkeit, dass der Fahrer wirklich betrunken ist.
In diesem Fall werden die relevanten numerischen Informationen - p(betrunken), p(D | betrunken), p(D | nüchtern) - in Form von Eigenfrequenzen in Bezug auf eine bestimmte Referenzklasse dargestellt (siehe Referenzklassenproblem). Empirische Studien zeigen, dass die Schlussfolgerungen der Menschen eher der Bayes'schen Regel entsprechen, wenn die Informationen auf diese Weise präsentiert werden, was dazu beiträgt, die Vernachlässigung der Basisrate bei Laien und Experten zu überwinden. Daher empfehlen Organisationen wie die Cochrane Collaboration, diese Art von Format für die Kommunikation von Gesundheitsstatistiken zu verwenden. Wenn man den Menschen beibringt, diese Art von Bayes'schen Argumentationsproblemen in natürliche Frequenzformate zu übersetzen, ist das effektiver als wenn man ihnen nur beibringt, Wahrscheinlichkeiten (oder Prozentsätze) in das Bayes'sche Theorem einzutragen. Es hat sich auch gezeigt, dass grafische Darstellungen von natürlichen Häufigkeiten (z. B. Icon-Arrays, Plots mit hypothetischen Ergebnissen) den Menschen helfen, bessere Schlussfolgerungen zu ziehen.
Ein wichtiger Grund, warum Formate für natürliche Häufigkeiten hilfreich sind, ist, dass dieses Informationsformat die erforderliche Schlussfolgerung erleichtert, weil es die erforderlichen Berechnungen vereinfacht. Dies wird deutlich, wenn man eine alternative Methode zur Berechnung der erforderlichen Wahrscheinlichkeit p(betrunken|D) verwendet:
wobei N(betrunken ∩ D) die Anzahl der Fahrer bezeichnet, die betrunken sind und ein positives Atemalkoholtest-Ergebnis erhalten, und N(D) die Gesamtzahl der Fälle mit einem positiven Atemalkoholtest-Ergebnis bezeichnet. Die Gleichwertigkeit dieser Gleichung mit der obigen ergibt sich aus den Axiomen der Wahrscheinlichkeitstheorie, wonach N(betrunken ∩ D) = N × p (D | betrunken) × p (betrunken). Wichtig ist, dass diese Gleichung zwar formal der Bayes'schen Regel entspricht, aber nicht psychologisch äquivalent ist. Die Verwendung natürlicher Häufigkeiten vereinfacht die Schlussfolgerung, weil die erforderlichen mathematischen Operationen mit natürlichen Zahlen anstelle von normierten Brüchen (d. h. Wahrscheinlichkeiten) durchgeführt werden können, weil die hohe Zahl falsch positiver Ergebnisse transparenter wird und weil natürliche Häufigkeiten eine "verschachtelte Mengenstruktur" aufweisen.
Nicht jedes Frequenzformat erleichtert die Bayes'sche Argumentation. Natürliche Häufigkeiten beziehen sich auf Häufigkeitsinformationen, die aus einer "natürlichen Stichprobe" resultieren, bei der die Informationen über die Basisrate erhalten bleiben (z. B. die Anzahl der betrunkenen Autofahrer bei einer Zufallsstichprobe von Autofahrern). Dies unterscheidet sich von der "systematischen Stichprobe", bei der die Grundraten "a priori" festgelegt werden (z. B. bei wissenschaftlichen Experimenten). Im letzteren Fall ist es nicht möglich, aus dem Vergleich der Anzahl der Fahrer, die betrunken sind und positiv getestet werden, mit der Gesamtzahl der Personen, die ein positives Testergebnis erhalten, auf die Nachwahrscheinlichkeit p(betrunken | positiver Test) zu schließen, da die Information über die Basisrate nicht erhalten bleibt und mit Hilfe des Satzes von Bayes explizit wieder eingeführt werden muss.
Externe Links
- Die Base Rate Fallacy Die Fallacy Files