Databac

Grand Oral de Mathématiques Sujet : Le paradoxe de Simpson : pourquoi les statistiques peuvent-elles nous induire en erreur ?

Publié le 26/05/2025

Extrait du document

« Grand Oral de Mathématiques Sujet : Le paradoxe de Simpson : pourquoi les statistiques peuvent-elles nous induire en erreur ? Problématique : Comment le paradoxe de Simpson remet-il en question notre manière d’interpréter les données statistiques, et quelles en sont les implications dans les sciences, la société et la prise de décision ? Introduction Les mathématiques sont souvent perçues comme une discipline rigoureuse et exacte, qui permet de produire des résultats fiables.

Parmi les branches les plus utilisées dans la vie réelle, les statistiques occupent une place de choix.

Elles servent à décrire, prédire et guider les choix dans des domaines aussi variés que la médecine, l’économie, la politique ou l’écologie.

Pourtant, il existe des situations dans lesquelles l’interprétation intuitive des statistiques se révèle trompeuse.

Le paradoxe de Simpson en est l’exemple emblématique.

Il montre qu'une tendance observée dans plusieurs groupes peut s'inverser lorsque les données sont agrégées.

Ce paradoxe n’est pas seulement un jeu d’esprit : il a eu des conséquences réelles dans des décisions politiques, judiciaires, économiques, ou scientifiques.

À travers cette étude, nous allons analyser en profondeur ce paradoxe, comprendre ses origines mathématiques, explorer ses applications et ses dangers, et réfléchir à la manière de s’en prémunir. I.

Qu’est-ce que le paradoxe de Simpson ? Le paradoxe de Simpson est un phénomène statistique contre-intuitif dans lequel une relation observée dans plusieurs sous-groupes disparaît ou s’inverse lorsque les données sont agrégées.

Ce paradoxe porte le nom du statisticien britannique Edward H.

Simpson, qui l’a formalisé en 1951, bien qu’il ait été observé dès 1899.

Un exemple célèbre est celui des admissions à l’Université de Berkeley en 1973.

Globalement, les hommes avaient un taux d’admission plus élevé que les femmes.

Mais une analyse par département montrait que les femmes avaient, en fait, un taux d’admission égal ou supérieur dans la majorité des départements.

Le biais provenait du fait que les femmes postulaient davantage dans les départements les plus compétitifs, où les taux d’admission étaient bas pour tous.

Ainsi, une lecture globale donnait une impression trompeuse d’inégalité. II.

Une explication mathématique du paradoxe Pour comprendre mathématiquement le paradoxe, prenons un exemple simplifié.

Imaginons deux traitements médicaux, A et B, testés sur deux groupes de patients.

Dans chaque groupe, A fonctionne mieux que B.

Mais si on regroupe les résultats, B semble supérieur.

Cette inversion est causée par la répartition inégale des patients dans chaque groupe : le groupe où A fonctionne bien contient peu de patients, et celui où il fonctionne mal en contient beaucoup. Cela signifie qu’il faut distinguer les statistiques conditionnelles (par groupe) des statistiques globales (agrégées).

En mathématiques, ce paradoxe est modélisé avec des probabilités conditionnelles, des moyennes pondérées, et des tableaux de contingence.

On montre alors que P(A|Groupe1) > P(B|Groupe1) et P(A|Groupe2) > P(B|Groupe2), mais P(A) < P(B) une fois les deux groupes fusionnés.

Cette inversion apparente met en évidence l’impact du facteur de confusion (la répartition des données entre groupes). III..... »

↓↓↓ APERÇU DU DOCUMENT ↓↓↓

Liens utiles