La somme de 2 statistiques peut inverser leur résultat

Temps de lecture : 5 minutes

- La somme de 2 statistiques peut inverser leur résultat

Simpson

Les trois tableaux sont compatibles, aucune erreur ne s'est produite. Les résultats sont sans appel : chez les hommes, le placebo est meilleur que le médicament ; chez les femmes, le placebo est meilleur que le médicament. Pourtant, en regroupant hommes et femmes, le médicament produit de meilleurs résultats que le placebo. On se trouve dans un cas du paradoxe de Simpson : la fusion de données concluant individuellement dans un sens – l'inutilité du médicament testé – donne des résultats concluant dans le sens inverse.

De nombreux cas réels présentent cette inversion de résultat lorsqu'on regroupe plusieurs catégories complémentaires en une seule. Chaque année, on découvre de nouveaux exemples produisant étonnement et incrédulité. On a rencontré le paradoxe à propos des taux d'admission des filles dans divers départements de l'Université de Berkeley en 1973 : elles étaient meilleures que les garçons dans la plupart des départements de l'université, mais quand on fusionnait les résultats, leur taux général d'admission à l'université était inférieur à celui des garçons.

L'étonnement vient de ce que l'on croit que [a/b < c/d et a'/b' < c'/d'] entraîne (a + a')/(b + b') < (c + c')/(d + d'). Or aucune démonstration n'établira cette implication entre inégalités arithmétiques, puisque justement les nombres des tableaux 1-3 vérifient les deux premières inégalités et pas la troisième : 36/24 < 14/6 et 4/16 < 18/42, mais 40/40 > 32/48.

Il y a d'autres cas cités :
- un degré meilleur de réussite par catégories avec une baisse du niveau général car le nombre des meilleurs baisse par rapport aux moins bons qui progressent.
- un taux de mortalité faible malgré une espérance de vie réduite à cause du rajeunissement de la population.

En fait, ce que démontre ce paradoxe de Simpson, c'est tout simplement que les statistiques sont inconsistantes quand elles ne prennent pas les bonnes catégories. Lorsque celles-ci sont arbitraires ou trop générales, elles deviennent trompeuses faisant de la sociologie, et d'une bonne compréhension préalable, la condition de sondages pertinents. C'est un peu ce que je disais avec "de la statistique à l'organisation sociale".

Ce paradoxe ne joue que dans un très petit nombre de cas (moins de 2%) et seulement si les écarts ne sont pas trop nets mais, le plus étonnant, c'est qu'il aurait une traduction biologique, jouant un rôle (surévalué ici) dans la sélection des plus coopératifs bien que ce soit un handicap dans la compétition individuelle.

Simpson2

L'une des souches de bactérie produisait un antibiotique utile aux deux souches et l'autre en profitait sans le produire. Une situation apparemment paradoxale est apparue : les non-producteurs croissaient plus vite dans chaque groupe (ce qui n'est pas une surprise) bien qu'au total, les non-producteurs voyaient leur effectif global décroître en proportion.

Pour un biologiste, ce système est un exemple frappant de conflit entre niveaux de sélection. Les bactéries productrices du bien commun sont les bénéficiaires de l'ensemble du système quand on le considère comme un tout, alors qu'à un niveau individuel (celui auquel opère la sélection), elles sont désavantagées puisque dans chaque groupe leur proportion diminue.

Grâce aux effets du paradoxe de Simpson, un trait qui bénéficie à la population considérée comme un tout peut ainsi se trouver sélectionné, bien qu'à un niveau individuel le trait soit désavantageux. La chose est étonnante : ce qui est mauvais au niveau individuel se trouve au total favorisé par l'effet mécanique d'un paradoxe de Simpson. La réalisation concrète de l'expérience par les chercheurs démontre que cet effet sélectif paradoxal n'est pas seulement théorique, mais doit être pris en compte par les spécialistes de l'évolution. Cette dynamique doit être envisagée comme mécanisme de sélection de traits individuels favorables à la coopération et à l'altruisme.

(citation d'un encadré qui n'apparaît pas dans le lien de l'article en ligne mais seulement avec le pdf)

1 381 vues

3 réflexions au sujet de “La somme de 2 statistiques peut inverser leur résultat”

  1. Tout simplement dire que [a/b < c/d et a'/b' < c'/d'] entraîne (a + a')/(b + b') < (c + c')/(d + d') est faux.
    Si [a/b < c/d et a'/b' < c'/d'] alors (a/b + a'/b') < (c/d + c'/d') ce qui est différent.
    L approche statistique de la première inéquation est utilisée pour des échantillons de même taille soit si b=d=b'=d'

Laisser un commentaire