Megalion a écrit :> Sans préjuger de la fiabilité qui peut être aussi dans la marge d'erreur,
il
> y a une différence entre précision et exactitude. Une variation des intentions de vote
> dans leur échantillon représentatif peut être significatif car les sondages sont précis quand
> l'exactitude de la représentativité de l'échantillon par rapport aux intentions de vote national
> peut être différente de plusieurs ordres de magnitude.
>
> Bref
>
> Une variation peut être une réalité mesurable et valide quand bien même on ne saurait pas avec
> précision le score final du candidat.
J'ai vraiment envie de répondre : cool story bro. Mais soit, je sens qu'il faut faire un peu de vulgarisation, que c'est pas si simple que j'ai envie de le croire... Après, le problème, c'est que je suis bien nul en vulgarisation, alors si quelqu'un veut vulgariser ma vulgarisation...
Primo, il me semble que l'hypothèse utilisée pour calculer les marges d'erreur de sondage, c'est qu'il n'y a pas de biais. ie que la mesure est exacte. C'est justement pour ça que les instituts font des corrections : pour virer les biais, genre la proportion de gens n'avouant pas voter extrême-droite.
Quand bien même il ne feraient pas ces corrections, le calcul de marge d'erreur reste un bête calcul de précision (que l'on peut calculer juste en connaissant la taille de l'échantillon). Or, si les biais ne sont pas gênant pour constater une évolution (à condition bien évidemment que chaque sondage subisse les mêmes biais... Ce qui est sans doute faux : si les sondages précédents indiquent une monté de l'extrême-droite, il est probable de les gens se sentent de moins en moins honteux de voter extrême-droite, et donc, que le biais qui minore les votes d'extrême-droite devienne de plus en plus faible...), les problèmes de précision sont bloquants.
Secundo, un petit peu de math ; partons de la conclusion du second sondage : 25% de la population désire voter EM. C'est notre hypothèse.
Là -dessus, je vais faire une expérience aléatoire : je prend une personne au hasard dans la population, je note un score de 1 si elle désire voter EM, 0 sinon. Ceci me crée une variable aléatoire X1 assez simple : P(X1 = 1) = 0.25, P(X1 = 0) = 0.75, l'espérance est E(X1) = 0.25, la variance est sigma**2(X1) = E(X^2) - E(X)^2 = 1/4 - 1/16 = 3/16, l'écart-type est la racine de la variance soit environs sigma(X1) = 0.43.
J'interroge une seconde personne, j'obtiens une seconde variable aléatoire indépendante X2 qui suit exactement la même loi, et une moyenne M2 = (X1+X2)/2 qui suit une loi un brin plus compliquée : P(M2 = 1) = 1/16, P(M2 = 0.5) = 6/16, P(M2 = 0) = 9/16. Je pourrais calculer l'espérance, la variance etc, mais en fait je vais pas le faire, parce que j'en ai pas besoin dans la suite et que c'est chiant.
Comme je suis un fou dans ma tête, je fais l'expérience 1400 fois. J'ai donc 1400 variables aléatoires X1, X2, ... X1400, indépendantes et de même loi (celle de X1 définie plus haut), et une moyenne M1400 = sum(X1, ..., X1400)/1400. Je m'intéresse à la loi de probabilité de M1400. Note : M1400 est (presque, j'y reviendrais ensuite) la loi de probabilité du résultat de ton sondage,
en partant de l'hypothèse que ton sondage a par chance donné le résultat exact.
La loi de probabilité de M1400, c'est compliqué à calculer, on pourrait passer par une loi binomiale mais ça resterait chiant, mais en vrai je vais l'approximer en utilisant
le théorème de la limite centrale. Bon, alors, je conçois qu'il fasse très très peur, mais en vrai il est assez simple et il est au centre des des stats et des calculs d'incertitude de mesure. Ce qu'il dit, en simplifiant, c'est "si je fais plein de fois la même expérience aléatoire (de façon indépendante entre chaque essais) et que je fais la moyenne de mes résultats, alors cette moyenne suit une loi simple : une loi gaussienne dont l'espérance est celle de la variable initiale, et dont l'écart-type est celui de la variable initiale divisé par racine(nombre d'expérience). Et ce, indépendamment de la complexité de la loi de probabilité initiale". C'est pour ça que toutes les lois de probabilité sont toujours gaussiennes : parce que la plupart des phénomènes que l'on observe sont en fait issus d'un grand nombre de phénomènes microscopiques indépendants et qui ont tous la même chance de se produire.
Ici 1400 étant assez grand, la loi de probabilité de M1400 est à peu près une loi gaussienne d'espérance E(M1400) = E(X1) = 0.25 et d'écart-type sigma(M1400) = sigma(X1)/racine(1400) = 0.012.
Maintenant je vais utiliser une table de la loi gaussienne ;
genre une table pourrie. J'ai donc :
38.3% de chance de trouver M1400 dans l'intervalle E(M1400)+-0.5*sigma(M1400) (ie M1400 entre 24.5% et 25.5%)
68.3% de chance de trouver M1400 dans l'intervalle E(M1400)+-sigma(M1400) (ie M1400 entre 23.9% et 26.1%)
95.4% de chance de trouver M1400 dans l'intervalle E(M1400)+-2*sigma(M1400) (ie M1400 entre 22.7% et 28.3%)
De là , j'ai envie de tirer deux conclusions.
La première, c'est que j'ai trouvé à peu près 95% de chance d'avoir M1400 dans l'intervalle 0.25 +- 2.3. Ce qui n'est, il faut le reconnaître, pas très loin de la marge d'erreur indiquée par ton sondage pour un résultat de 25% (il donne une marge d'erreur entre 2.1 et 2.4). alors, de deux chose l'une : soit je suis un putain de génie, soit j'ai juste fait en gros le calcul de la marge d'erreur (avec moult simplification pour vulgariser, et aussi parce que je ne suis pas du tout à l'aise avec le calcul exact - et il me semble qu'il contient des heuristiques douteuses).
La seconde, c'est que si je fais un second sondage sur 1400 personnes, le nombre de votant macron sera une variable aléatoire qui a la loi de M1400. Presque. Les approximation que j'ai faite, c'est l'usage du théorème de la limite centrale (mais ça, tkt, c'est aussi ce que font les instituts de sondage, il se font pas chier avec des loi binomiales), et surtout supposer l'indépendance entre X1, X2 etc (alors que ce n'est pas le cas ; entre autre, les instituts prennent soin de ne pas interroger deux fois la même personne). Mais j'ai pas l'impression que ça change grand-chose, et en vrai, m'est avis que quand ils calculent, ils utilisent ce genre d'hypothèse d'indépendance - qui est pratiquement vraie du fait que la taille de l'échantillon est négligeable devant la taille de la population. Maintenant, regarde la loi de M1400 : elle a moins de une chance sur deux de donner un résultat entre 24.5% et 25.5%.
Si je fais un second sondage exactement dans les mêmes conditions que celui que tu met en lien, juste en raison de l'imprécision liée à la taille d'échantillon, et en partant de l'hypothèse que ton sondage donne le résultat exact, j'ai moins de une chance sur deux de trouver un score proche à 0.5% près. A partir de là , il faut être complètement con pour prétendre qu'un +0.5 est une hausse : on est en plein dans le bruit. C'est comme ça, c'est lié au fait qu'un sondage n'est pas un recensement, c'est intrinsèque au principe même d'un sondage, au fait que son résultat soit une variable aléatoire (puisqu'on a interrogé des gens pris au hasard), c'est lié au fait que deux sondages faits au même instant en posant les mêmes questions ne donneront pas le même résultat.
Alors, soit, on pourrait essayer de calculer P(EM a progressé dans la population totale)... Mais non. Y a pas besoin d'être un génie pour comprendre que +-0.5% quand la marge d'erreur est de 2.3%, c'est juste du bruit.
Quelques points de repère : la marge d'erreur est donnée (en général) pour 95% de chance. Ce qui signifie "si le résultat que l'on a obtenu est le résultat exact, alors 95% des sondages donneront un résultat proche à cette marge d'erreur près" ou, de façon équivalente je crois, "si le résultat réel n'était pas dans cette marge d'erreur, alors notre sondage aurait eu moins de 5% de chance de donner un tel résultat".
Ce "95%" signifie donc (voir les tables de gaussienne) que le nombre donné est 2 fois l'écart-type que l'on aurait sur ce résultat en faisant plein de sondage (plus précisément, 1.96 fois l'écart-type). On a, par ailleurs, si l'on fait un autre sondage identique, environs 2 chances sur trois de tomber sur le même résultat à l'écart-type près, et seulement une chance sur trois d'être à la moitié de l'écart-type.
En somme, lorsqu'on constate une hausse/baisse égale à la moitié de la marge d'erreur, ça commence à être douteux d'y déceler une tendance : vous avez une chance sur trois de vous planter - dans aucun domaine
sérieux on n'utilise une prévision fiable à 2/3. Les journalistes le font, certes, mais c'est pas franchement le top du sérieux comme domaine ; à vrai dire, je pense qu'un voyant un peu doué dans la lecture à froid est capable de faire des prévisions plus fiables.
Et pire, lorsqu'on constate une hausse/baisse égale au quart de la marge l'erreur, on est en train de regarder du bruit : la plupart (littéralement : plus de 1/2) des sondages fait exactement dans les même conditions auront ce genre de différences, juste en raison des règles du hasard. A ce stade, faut rien entraver de ce qu'on fait pour en tirer des conclusions. Et c'est exactement ce que fait le journaliste dans ton article. Le tableau de valeur des gaussiennes est quand même assez parlant : en imaginant un tel sondage 1 fois par jour avec chaque fois un commentaire de ce journaliste, alors 4 à 5 fois par semaine il se tromperait dans son analyse. Un mec qui se plante avec une telle régularité, dans n'importe quel domaine
sérieux on le vire rapidos. Tous les liens que tu pourras mettre sur l'exactitude vs la précision n'y changeront rien.
Une telle "règle du 1/4 marge d'erreur", même un journaliste qui entrave rien aux stats devrait pouvoir la comprendre il me semble...
___
PROTOPLASME