Attention : Ce sujet n'est qu'un exemple !
Lisez-le, inspirez-vous en, mais ne vous en servez pas tel quel ! Une bonne note au Grand Oral est surtout le résultat d'une adéquation entre vous et votre sujet. Un très bon sujet pour un élève peut donner une note... moyenne pour un autre.
Paradoxe simpson
Paradoxe simpson
Grand oral mathématiques ; le paradoxe de Simpson Peut on toujours se fier aux chiffres ? Facteur de confusion, on se trompe de causalité Les mathématiques permettent de comprendre le monde à condition de se souvenir qu’il existe. Introduction Bonjour à tous. Aujourd’hui, je vais vous parler du paradoxe de Simpson, un phénomène fascinant en statistiques, et je vais le relier au concept des probabilités conditionnelles. Le paradoxe de Simpson illustre comment des tendances apparentes dans différents groupes de données peuvent s’inverser lorsque les groupes sont combinés. Pour illustrer cela, nous allons utiliser un exemple médical fictif impliquant des traitements pour les tumeurs. Problématique Pour répondre à la problématique suivante «Comment le paradoxe de Simpson remet-il en question notre interprétation des données statistiques en lien avec les probabilités conditionnelles, et pourquoi est-il crucial de prendre en compte toutes les variables contextuelles dans une analyse de données ?» nous commencerons donc par définir les statistiques, il s’agit de l’ensemble des méthodes qui ont pour objet de collecte, le traitement et l’interprétation de données d’observations relatives à un groupe d’individus ou d’unités. Elles servent à visualiser des phénomènes de masses, à calculer des moyennes des rendements ou encore des taux de fréquentations. On les considère comme le fondement de toutes décisions rationnelles. Pourtant même dans ce que l’on pense être rationnel, il existe des paradoxes et c’est donc cela que nous allons étudier aujourd’hui et pour cela nous prendrons l’exemple des tumeurs. Définition du Paradoxe de Simpson Je vais ensuite ensuite définir ce qu’est le paradoxe de Simpson, Le paradoxe de Simpson est un paradoxe des statistiques qui fait que, lorsqu’on réunit certaines données et qu’on les analyse globalement, on trouve un résultat contradictoire à l’analyse que l’on ferait en analysant ces données seules, il se produit lorsque la relation entre deux variables observée dans plusieurs sous-groupes change ou s’inverse lorsqu’on combine ces sous-groupes. En d’autres termes, une tendance qui apparaît dans des ensembles de données distincts peut disparaître ou se renverser lorsque les ensembles sont agrégés. Exemple voici donc notre exemple de situation, Donc imaginons, vous êtes à l’hôpital et l’on vous diagnostique une tumeur, le médecin vous reçoit alors et vous propose deux traitements différents; les médicaments, c’est à dire une chimiothérapie ou la chirurgie. N’ayant pas de connaissances suffisantes sur ce domaine et pour choisir votre traitement vous demandez ce qui fonctionne le mieux. Le médecin vous donne alors les chiffres recensant le taux de guérison des 1000 derniers patients; dans le cas des médicaments, le taux de guérison est de 76% et pour la chirurgie il est de 66%. Pour vous il est donc certain d’utiliser les médicaments. Cependant quelques jours plus tard lors d’un rendez vous avec votre médecin traitant, il vous explique que cela n’était donc pas forcément le meilleur choix. En effet le traitement dépend de la taille de la tumeur, il vous montre alors une étude séparant les résultats en fonction de la taille de la tumeur. Pour les tumeurs de plus de deux centimètres il est clair, les médicaments guérissent dans 46% des cas et la chirurgie dans 63%. Cependant pour les petites tumeurs de moins de 2 centimètres les médicaments guérissent dans 82% et la chirurgie dans 90%. On voit donc avec surprise que la chirurgie fonctionne le mieux dans les deux cas. Mais pourquoi ? Tout simplement parce que le nombre de patients en fonction de la taille de la tumeur n’est pas pris en compte. Cependant, c’est effectivement la chirurgie qui marche le mieux, le fait que les médicaments aient l’air d’avoir des taux de guérison plus élevés, c’est une apparence. Nous pouvons donc observer que les grosses tumeurs ont des taux de guérison plus faibles que les petites tumeurs, dans notre cas, les patients atteints d’une grosse tumeur utiliseront davantage la chirurgie et ceux atteints d’une petite, les médicaments, qui sont moins lourd et ayant un aussi bon % de réussite. Mais donc voilà en reprenant nos chiffres si, en additionnant le nombre de personnes ayant choisies la chirurgie d’une grosse tumeur et d’une petite tumeur, on rappelle 63 et 90% on obtiendra un résultat plus proche des 63%, 66% en l’occurrence, et pour les médicaments avec les petites et grosses tumeurs on obtiendra un résultat plus proche des 82% et en effet on a 76%. Même si à première vue, il semble que la chimio soit meilleure pour les deux types de tumeurs. Cependant, quand nous combinons les données, nous devons tenir compte de la répartition de la taille de tumeurs des patients pour obtenir un meilleur taux de survie. Probabilités Conditionnelles Les probabilités conditionnelles sont essentielles pour comprendre ce paradoxe. Une probabilité conditionnelle est la probabilité qu’un événement se produise, sachant qu’un autre événement s’est déjà produit. Elle se note P(aB) et s’écrit comme ça ; P(aB)= P(A inter B)/P(A) Lien entre Probabilités Conditionnelles et Paradoxe de Simpson Pour comprendre le lien entre les probabilités conditionnelles et le paradoxe de Simpson, examinons de plus près comment les probabilités conditionnelles fonctionnent dans notre exemple médical. Considérons les patients atteints de tumeurs grosses et petites, traités soit par chirurgie soit par chimiothérapie. Nous reprendrons donc les chiffres donnés précédemment. Ainsi soient A et B les probabilités de traiter la tumeur avec respectivement la chimiothérapie et la chirurgie, G la probabilité que le patient soit atteint d’une grosse tumeur et enfin S la probabilité que le traitement soit un succès (ce qui correspond à la guérison). Déterlinons dans un premier temps les probabilités Pg(A), Pg(B), Pgbarre(A), et Pgbarre(B) : Pg(A) = (90+92)/90+92+564+331)= 182/923 = 0,169 et Pg(B)= (331+564)/1077=0,831 Cela signifie que l’on a une probabilité de plus de 83% d’être traité par la chirugie lorsque l’on est atteint d’une grosse tumeur. De même : Pgbarre(A)= (147+671)/(147+671+11+94)= 818/923= 0,886 Et Pgbarre (B) = (11+94)/923=0,114 Donc la probabilité d’être soigné par une chimiothérapie en cas de petite tumeur est de plus de 88% On peut donc clairement en conclure que la taille de la tumeur influe sur le choix du traitement. Calculons maintenant Pg(S) et Pgbarre(S) : Pg(S) = (594+90=/1077=0,607 Pgbarre(S)= (671+94)/923=0,807 On peut donc en conclure que la tzille de la tumeur influe sur la guérison, une petite tumeur voit des probabilité de guérison de plus de 80% alors qu’une grosse tumeur seulement de 60%. En conséquence, la taille de la tumeur influe sur le choix du traitement et sur le résultat du traitement, c’est ce que l’on appelle le facteur de confusion Paradoxe de Simpson explication Le paradoxe de Simpson se manifeste ici : bien que les probabilités conditionnelles montrent que la chirurgie a de meilleurs taux de survie pour chaque type de tumeur, les médicaments montrent un taux de survie global plus élevé. Cela se produit parce que la distribution des patients entre les traitements et les types de tumeurs influence le résultat global. En d’autres termes, les probabilités globales ne reflètent pas correctement les probabilités conditionnelles lorsqu’on ne tient pas compte des sous-groupes. Mais al ors, comment comprendre ce paradoxe statistique? décrit par Edward Simpson en 1951 et George Udny Yule en 1903, dans lequel un phénomène observé dans plusieurs groupes s’inverse lorsque les groupes sont combinés. Ce résultat, qui semble impossible au premier abord, est lié à des éléments qui ne sont pas pris en compte, comme la présence de variables non indépendantes ou de différences d’effectifs entre les groupes; il est souvent rencontré dans la réalité, en particulier dans les sciences sociales et les statistiques médicales . Dans notre étude nous montrons un lien de cause à effet entre le choix du traitement et la guérison, dépendant du choix du traitement mais surtout de la taille de la tumeur. Or dans les données que nous utilisons, la taille de la tumeur a également joué sur le choix des traitements utilisés. Nous avons donc un facteur externe, la taille de la tumeur qui joue à la fois sur le traitement choisit et sur le taux de guérison, c’est à dire la conséquence et la cause étudiées.C’est donc cela que nous appelons un facteur de confusion et c’est dans ce type de situations que le paradoxe de Simpson peut se produire. Conclusion En conclusion, le paradoxe de Simpson met en lumière l’importance des probabilités conditionnelles dans l’interprétation des données et qu’il est crucial de ne pas se fier uniquement aux analyses globales, mais de comprendre comment les sous-groupes influencent les résultats. Les probabilités conditionnelles offrent alors une perspective plus précise et évitent les erreurs d’interprétation que peuvent induire les statistiques. Le paradoxe nous rappelle que les statistiques peuvent être trompeuses si elles ne sont pas correctement contextualisées. Les probabilités conditionnelles sont essentielles pour comprendre comment différentes variables interagissent et influencent les résultats. En étant conscient de ce paradoxe et en appliquant rigoureusement les concepts de probabilités conditionnelles, nous pouvons éviter des erreurs d’interprétation et prendre des décisions mieux informées. Merci de votre attention. Avez-vous des questions ?