
​
https://preview.redd.it/9snamhl33cu81.png?width=1000&format=png&auto=webp&s=9ac24db332df4ac62ef15ffa939a11222d5ca38e
Je me suis *amusé* à décortiquer un peu les résultats du premier tour de l’élection présidentielle 2022.
Je vous dis tout de suite, je ne suis pas géographe, ni sociologue, et tout est fait avec mes petites mains, sans grande prétention. Décrire de manière un peu plus visuelle et quantitative ces résultats en essayant d’éviter les biais de représentation a été un processus de recherche en quelque sorte. J’ai donc décidé de vous montrer les différentes étapes que j’ai parcouru, avec du texte pour expliquer. Si ce n’est pas clair n’hésitez pas à me dire, j’essayerai d’améliorer celà.
Comme c’est un peu long, ce sera en plusieurs épisodes, au moins deux, peut être plus si j’ai un peu de temps, et que ça intéresse du monde ici.
**Quelques points pour démarrer:**
* Bien heureusement pour la démocratie, le vote est annonyme, on ne peut pas connaitre le vote de chaque personne individuellement Le jeu de donnée sur lequel je me base concerne les informations sur le vote au niveau communal. C’est un point important, car On ne peut regarder par cette lorgnette, que la diversité de la répartition des votes telle qu’elle se présente au niveau local. C’est donc un indicateur sociologique relativement indirect.
* Je vais essayer de limiter au maximum les interprétations, car je ne suis pas vraiment compétent la dedans, je vais plutôt chercher à produire des représentations le plus neutres possibles.
* Tout cela est basé sur des corrélation, pas de causalité. Enfin, quand on voit une corrélation forte sur 35000 points, il y a souvent quelque chose derrière.
**La structure :**
La première chose que fais en général quand j’aborde un nouveau jeu de donnée, c’est d’essayer de **mieux comprendre sa structure**. Par structure on entend comment se répartissent les points (ici un point est le nombre de vote dans chaque catégorie dans une commune) dans l’ensemble des possibles, et les relations entre les variables, les variables étant la répartition des expressions d’opinion pour le dire au sens large, en incluant l’abstention, les votes nuls/blancs.
L’outil générique pour ça c’est la [PCA](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales) (analyse en composante principale). Ici il y a 14 variables (les proportions de vote pour les 11 candidats + l’abstentions + les votes blancs + les votes nuls), donc c’est compliqué à représenter d’un seul coup. C’est pourquoi on voit un certain nombre de journaux se contenter de montrer juste le candidat en tête, avec toutes les problèmes que cela peut poser.
La PCA est un outil qui va nous aider à regrouper (par combinaison linéaire) les variables qui sont corrélées entre elles, c’est à dire portant donc plus ou moins la même information, en commencant par les combinaisons de variables qui polarisent le plus les données (expliquant le plus de variance).
Cela nous permet de voir deux choses:
* **Condenser la variation** des 14 variables en 2/3 dimension par exemple, ce qui est plus facilement appréhendable
* Nous informer sur les **corrélations entre** ces 14 **variables**
Voici le graphique représentant la diversité de la répartition des votes au sein des communes, avec à coté, le pourcentage de variance expliqué par les axes:
​
https://preview.redd.it/nesy3dzg5cu81.png?width=1920&format=png&auto=webp&s=3556d3efad9b7ad84b02685b78204574bb4dbece
​
https://preview.redd.it/6jnkokwh5cu81.png?width=1920&format=png&auto=webp&s=4d1fe33973afea9e1c2173fc88bc1e639b95f7cb
Ce que l’on voit:
* Avec 3 axes, on décrit 80% de la variance, ce qui est déja pas mal. Ca veut dire qu’avec 3 dimensions, on représente une bonne proportion de la variation locale de la répartition des votes (on appelle ça la dimensionnalité)
* Au niveau de la france entière, la répartition des votes semble suivre une distribution gaussienne, ce qui veut dire centrée sur une moyenne, avec une variation autour.
* On observe tout de même une queue qui part vers le haut.
Pour comprendre ce que c’est, on va regarder à quel point les variables contribuent aux axes. La PCA nous donne cette information. Les contributions peuvent être négatives, ou positives. On représente les valeurs pour deux axes à chaque fois, ce qui nous donne un vecteur. Observer deux vecteurs de même direction veut dire que les variables sont très corrélées. À 90°, ces variables sont peu corrélées. Il y a deux graphes, qui représentent les contributions sur les axes 1 et 2, et sur les axes 1 et 3.
​
https://preview.redd.it/yxkkp2m93cu81.png?width=1635&format=png&auto=webp&s=690512027fe6afe6f056f64e2813426ad5602244
​
https://preview.redd.it/0rslyz6z7cu81.png?width=1629&format=png&auto=webp&s=b933558798f1946cc8246be4d1e287634ffbe0f8
On voit clairement **ce qui polarise la répartition** des votes:
* Premier axe (35% variance), **MLP et JLM sont clairment anticorrélés** (localement, plus on vote pour MLP, moins on vote pour JLM)
* **EM entretient un rapport ambigü avec l’abstention**, avec deux tendances opposées présentes dans les données représentées sur l’axe 2 et 3. Une anticorrélation (axe 2: plus on s’abstient, moins on vote EM), et une corrélation (axe 3: plus on s’abstient, plus on vote EM).
* les autres candidats on une influence très mineure sur la variation
La queue que l’on voit dans la pca correspond donc à des communes à l’abstention forte, et un faible vote pour macron.
Bon maintenant, on a envie de regarder cela sur une carte. Pour chaque commune, on a un le score de la pca, qui représente la répartition des votes. On peut donc colorer chaque commune sur une carte en fonction de son score dans la pca. Les communes ayant une couleur semblable seront donc similaires en terme de répartition des votes (au sens large!). On va colorier en faisant la correspondance entre les scores et un espace de couleur perceptuel ([LAB](https://fr.wikipedia.org/wiki/L*a*b*_CIE_1976)) pour éviter au maximum les artéfacts visuels. Les axes 1 et 2 correspondent aux variations de couleur, l’axe 3 de luminance.
J’ai essayé au maximum d’inclure les communautés d’outre-mer, en conservant la surface, mais c’est assez technique, et je ne vous garantie pas qu’il n’y a pas d’erreurs quelque part. Je n’ai pas mis le nom non plus, mais on peut reconnaitre si on a vraiment envie.
​
https://preview.redd.it/ala08oxj6cu81.png?width=3410&format=png&auto=webp&s=60d0e80b74edda7d77e94ed787e7aa807114a9aa
J’ai repris la pca de tout à l’heure en ajoutant la couleur pour s’y retrouver un peu mieux :
https://preview.redd.it/n4dcznxt3cu81.png?width=1920&format=png&auto=webp&s=177f512824b2ccac01ef314095fd15ce8bdcb82c
Il semble y avoir plein de choses intéressantes. des régions se découpent clairement. Les villes ont une couleur différentes des campagnes, le nord est de la france est vote clairement plus pour MLP. On voit que les communes avec beaucoup d’abstentions correspondent principalement à l’outremer.
Cependant le “code couleur” est peu intuitif. Mais, maintenant qu’on comprend un peu mieux comment est structuré le jeu de donnée, on va pouvoir produire des représentations plus ciblées, plus claires et plus intéressantes, mais c’est pour le prochain épisode (seulement si cela intéresse des gens bien sûr !)
Merci de votre attention, en espérant que cela vous a plu !
Des bisous