Ik heb de stemwijzers door de wiskunde gehaald: PCA van de partijen

by MeneerPuffy

12 comments
  1. [Voor elke verkiezing](https://www.reddit.com/r/Politiek/comments/17zu76w/waar_staan_de_partijen_hoofd_component_analyse/) doe ik een [hoofd component analyse (PCA)](https://en.wikipedia.org/wiki/Principal_component_analysis) op de posities van de partijen in de volgende stemwijzers en stemmentrackers:

    * [Stemwijzer](https://www.stemwijzer.nl/)
    * [Kieskompas](https://www.kieskompas.nl/)

    Het invoeren van alle data is altijd een gedoe, *gelukkig zijn de verkiezingen dan ook slechts eens in de 4 jaar*. Dit jaar ontbreekt de stemmentracker, omdat, zoals ze op hun FAQ aangeven, het kabinet te kort zat om een goede dataset te generen.

    Heel kort door de bocht: ik heb van elk standpunt een ‘as’ gemaakt waarop ik de antwoorden van de verschillende partijen plaats. Na 30 stellingen heb ik hierdoor een 30 dimensionaal object dat ik door middel van een hoofd component analyse reduceer tot 1, 2 en 3 dimensies. Zo’n analyse zorgt ervoor dat de overgebleven assen maximaal de variantie tussen de partijen verklaren.

    *Hoe dichter de partijen bij elkaar staan in de grafiek, hoe meer hun standpunten/ stemgedrag overeenkomt*

    De analyse wordt gedaan op de dataset van kieskompas, stemwijzer en een gecombineerde dataset.

    Het meest opvallend (blijft) het feit dat er in veel van de analyses 3 clusters/ stromingen naar voren komen: 1. Progressief/ links 2. Conservatief/ rechts 3. En confessioneel. (CDA, NSC, CU) of confessioneel midden (afhankelijk van de data).

    Binnen deze blokken is dan ook veel concurrentie en verloop (‘wie wordt de grootste in het blok / trekt de strategische stemmers aan’), maar tussen de blokken vermoed ik dat het een stuk minder is, zeker gezien de grote verschillen op standpunten. In de analyse kun je ook zien ‘hoe zwaar’ de verschillende standpunten wegen voor de assen zodat je goed kan zien welke punten het verschil maken.

    **1. Hoofdcomponentenanalyse**
    Hoofdcomponentenanalyse (PCA) is een statistische techniek die wordt gebruikt voor dimensionale reductie. Dit is een methode waarmee de dimensies of variabelen van een dataset worden verminderd, terwijl zo veel mogelijk relevante informatie behouden blijft. Het doel is om de complexiteit van gegevens te verminderen door de dataset om te zetten in een lagere-dimensionale ruimte, terwijl belangrijke patronen en relaties in de gegevens behouden blijven.

    De overgebleven dimensies, de ‘hoofdcomponenten’ zijn combinaties van de oorspronkelijke variabelen en kunnen worden gebruikt om de belangrijkste patronen in de data te identificeren. Hierdoor wordt het mogelijk om de data te visualiseren in een grafiek met minder dimensies. Niet elk component verklaart evenveel van de variantie in de data. De eerste component verklaart de meeste variantie, de tweede component verklaart de meeste variantie van de overgebleven variantie, enzovoort. De toegevoegde waarde van een component neemt hierdoor af naarmate er meer componenten worden toegevoegd, omdat elk nieuw component een kleiner deel van de totale variantie verklaart.

    **2. Analyse stemhulpen**

    Dit is een analyse van hoe de verschillende partijen zich tot elkaar verhouden op basis van de stellingen uit de stemhulpen. Het doel is om hierdoor een beter beeld te kunnen geven van het antwoord op vragen als: “Waar bevindt de NSC zich op het politieke spectrum?”, “Hoeveel overlap is er tussen de partijen?”.

    Elke vraag in een stemhulp vertegenwoordigt een dimensie, dit betekent dat een stemhulp met dertig vragen een dertigdimensionale dataset oplevert. Om deze data alsnog te kunnen visualiseren is er een hoofdcomponentenanalyse toegepast op de gegevens van alle stemhulpen om het aantal dimensies terug te brengen tot één, twee of drie dimensies. Hierdoor is het mogelijk de posities van de partijen in een grafiek weer te geven. Partijen die zich dicht bij elkaar bevinden zijn het met elkaar eens, partijen die ver van elkaar afstaan, verschillen sterker van mening. Het is belangrijk te beseffen dat niet elke as (of ‘component’) evenveel van de variantie verklaart. In de grafieken staat per as aangegeven welk deel van de variantie wordt verklaard en dus ook hoe ‘belangrijk’ deze as is.

    Per component is er een analyse gemaakt van de stellingen die de grootste invloed hebben op de positie van de partijen. Hierdoor wordt inzichtelijk gemaakt wat een as in de grafiek representeert. De antwoorden van de partijen op de stellingen zijn gecodeerd als getallen. Hoe hoger het getal, hoe meer de partij het eens is met de stelling, negatieve waarden betekenen dat de partij het oneens is met de stelling. Deze antwoorden worden vermenigvuldigd met de waarden (‘loadings’) die de stellingen hebben voor het betreffende component. De som van deze vermenigvuldigingen bepaalt de positie van de partij op dat component.

    Tot slot heb ik de correlatie tussen de antwoorden van de partijen berekend. Hoe hoger de correlatie, hoe groter de mate waarin de partijen het met elkaar eens zijn.

    **Resultaten Kieskompas en Stemwijzer gecombineerd**

    [3d](https://ibb.co/hxqN0S2X)

    [2d](https://ibb.co/Jw7PdxyR)

    [1d](https://ibb.co/L7BXK3V)

    [Loadings component 1](https://ibb.co/GfH1NcRd)

    [Loadings component 2](https://ibb.co/pBKJd3G0)

    [Correlatie tabel](https://ibb.co/zVbhTdxc)

    [Verklaarde variantie per component](https://ibb.co/tT1wy1gH)

    **Kieskompas**

    [3d](https://ibb.co/JjfM2QJJ)

    [2d](https://ibb.co/vtW4BV7)

    [1d](https://ibb.co/HTJDSWy1)

    [Loadings component 1](https://ibb.co/gZPZfwZf)

    [Loadings component 2](https://ibb.co/d08h0vm5)

    [Correlatie tabel](https://ibb.co/prGYHbKB)

    [Verklaarde variantie per component](https://ibb.co/j9D2rg5h)

    **Stemwijzer**

    [3d](https://ibb.co/ZzZZHhnd)

    [2d](https://ibb.co/3mmMFnJG)

    [1d](https://ibb.co/C39w13b5)

    [Loadings component 1](https://ibb.co/zVy6Ns5f)

    [Loadings component 2](https://ibb.co/23SN7wwb)

    [Correlatie tabel](https://ibb.co/rRBbdg3W)

    [Verklaarde variantie per component](https://ibb.co/Q7dFWXDH)

    De volledige analyse is [hier] te downloaden(https://filebin.net/lzd09ctf483embm3)

  2. Ik adviseer je een keer een boek over datavisualisatie te lezen. Ik vond zelf de boeken van Stephen Few erg nuttig.

    Een 3D diagram is onleesbaar op een 2D scherm, nooit gebruiken!

    Hebben PvdD en SP dezelfde PC2 en SP een hgoger PC3 en lager PC1?

    Of hebben ze dezelfde PC1 en PC3, maar heeft SP een hoger PC2?

    En die discussie kan je letterlijk over elke vergelijking in de grafiek houden!

    Je kan er een 2D grafiek van maken voor PC1 en PC2 met PC3 aangegeven met een verloop van kleur op een schaal. Laatste is dan minder precies, maar in ieder geval zijn de verhoudingen duidelijk.

  3. Leuke techniek. Pas je dit ook op andere gebieden toe. Is het mogelijk de 3d figuur interactief te maken, of kun je de data tabel delen (of zit dat al in de download)

  4. Ik ben verbaasd dat er al meer dan 50% van de variantie in de eerste component zit.  De loadings ervan zijn ook interessant.   Dan is politiek toch veel meer een 1-dimensionaal gebeuren dan ik gedacht en gehoopt had.

  5. Leuk! Hoeveel componenten heb je nodig om 95% van de variabiliteit te beschrijven? Deze 3 dimensies zijn vet, maar om te weten of ze echt informatief zijn is het ook belangrijk om te weten hoeveel van de variabiliteit ze omvatten.

  6. Kan iemand in Jip en Janneke taal aan mij uitleggen waar ik naar kijk?

  7. De politiek-geïnteresseerde econometrist in mij had je volledige aandacht! Maar echt vet, cool gedaan!

  8. Hier zie je nogmaals tot welke partijen de VVD eigenlijk gelijk staat hahahaa

  9. Grappig dat juist D66 op as 2 en 3 richting het CDA-blok gaat. Dat is een indeling waar je niet snel op zou komen als je het als mens benadert, als je gaat kijken “oké, wat is een as waarop we partijen kunnen indelen?” Maar wiskundig komt hij er met deze vraagstellingen dan wel uit.

    Ook opvallend dat er bij de BBB echt helemaal niks meer over is van die ambitie om het nieuwe iets bozere CDA te zijn.

  10. Het zou interessant zijn om niet een kubus, maar een balk te laten zien, geschaalt naar het percentage expl. var. De afstand op as PC1 is echt veel belangrijker dan die op PC2 of PC3. 

Comments are closed.