W ramach walki ze świątecznym przejedzeniem, spróbowałem połączyć dwa z najpopularniejszych na r/polska tematów – politykę i naukę kąkutera. Dokładniej, na obrazkach są efekty turboamatorskiego scrapeowania dla każdego posła sejmu tej kadencji tego, co dostaniemy klikając w jego profilu w “Wystąpienia na posiedzeniach Sejmu”, a potem “Wypowiedzi”. Ciekawostki – ile ma wystąpień [jeden poseł](https://www.sejm.gov.pl/Sejm9.nsf/posel.xsp?id=198&type=A) i [drugi poseł](https://www.sejm.gov.pl/Sejm9.nsf/posel.xsp?id=199&type=A)? Następnie dla całości, 4 największych klubów i jednego posła każdego z nich pakiet wordcloud wypluł chmury słów:
Każda chmura pojawia się fwa lub trzy razy – pierwszy raz po odfiltrowaniu spójników, imion spowodowanych wtrąceniami* i mało produktywnej listy słów:
[‘pani’,’pan’,’panie’,’panu’,’r’,’marszałek’,’marszałku’,’dzwonek’, ‘izbo’,’ustawa’,’ustawę’,’ministrze’,’minister’,’posłowie’,’posłanki’,’wysoka’,’wysoki’,’sejmie’,’wicemarszałek’,’dzwonek’,’dziękuję’,’szanowni’,’państwo’,’szanowni’,’oklaski’,’chodzi’,’oczywiście’,’pytanie’,’m’,’in’,”poseł”,”dzwonek”,”naprawdę”,”prostu”,”będziemy”,”proszę”,”premierze”,”pośle”]
drugi raz po dodatkowym odfiltrowaniu dalej częstych:
i trzeci po odfiltrowaniu dwustu najczęstszych słów z całości.
*Mimo tego, że zwykle krzyki z sali i uwagi marszałka są zaznaczone nawiasami, to jak już wszystko było zrobione, nagle okazało się że nie zawsze :/
Byłem ciekawy czy taka amatorka pokaże jakieś różnice między dużymi klubami – wyszło tak sobie. Niestety bardziej produktywne wykluczenia wymagałyby chyba jakiegoś ML albo przynamniej dobrego słownika lub doświadczenia w takich zabawach. Widać za to, że Lewica jednak nie nadużywa słów [TERF i podatki](https://www.reddit.com/r/Polska/comments/rntyr1/dlaczego_polacy_pluj%C4%85_na_lewic%C4%99/) (za to bardziej niż myslałem lubi mówić o sobie), PiS i Konfa nie zawsze odmawiają modlitwy i niszczą czwartą rzeszę, a KO też strasznie od stawki nie odstaje.
Jakby ktoś chciał się też bawić, to, z tego co widzę, poza stroną sejmu jest też twórczośc profesjonalna: http://clip.ipipan.waw.pl/PPC
1 comment
W ramach walki ze świątecznym przejedzeniem, spróbowałem połączyć dwa z najpopularniejszych na r/polska tematów – politykę i naukę kąkutera. Dokładniej, na obrazkach są efekty turboamatorskiego scrapeowania dla każdego posła sejmu tej kadencji tego, co dostaniemy klikając w jego profilu w “Wystąpienia na posiedzeniach Sejmu”, a potem “Wypowiedzi”. Ciekawostki – ile ma wystąpień [jeden poseł](https://www.sejm.gov.pl/Sejm9.nsf/posel.xsp?id=198&type=A) i [drugi poseł](https://www.sejm.gov.pl/Sejm9.nsf/posel.xsp?id=199&type=A)? Następnie dla całości, 4 największych klubów i jednego posła każdego z nich pakiet wordcloud wypluł chmury słów:
[(wrzucam na imgur bo redditowe albumy mnie jakoś nie przekonują)](https://imgur.com/a/9ZU6Vik)
Każda chmura pojawia się fwa lub trzy razy – pierwszy raz po odfiltrowaniu spójników, imion spowodowanych wtrąceniami* i mało produktywnej listy słów:
[‘pani’,’pan’,’panie’,’panu’,’r’,’marszałek’,’marszałku’,’dzwonek’, ‘izbo’,’ustawa’,’ustawę’,’ministrze’,’minister’,’posłowie’,’posłanki’,’wysoka’,’wysoki’,’sejmie’,’wicemarszałek’,’dzwonek’,’dziękuję’,’szanowni’,’państwo’,’szanowni’,’oklaski’,’chodzi’,’oczywiście’,’pytanie’,’m’,’in’,”poseł”,”dzwonek”,”naprawdę”,”prostu”,”będziemy”,”proszę”,”premierze”,”pośle”]
drugi raz po dodatkowym odfiltrowaniu dalej częstych:
[‘ustawy’,’polsce’,’rząd’,’prawa’,”niestety”,’państwa’]
i trzeci po odfiltrowaniu dwustu najczęstszych słów z całości.
*Mimo tego, że zwykle krzyki z sali i uwagi marszałka są zaznaczone nawiasami, to jak już wszystko było zrobione, nagle okazało się że nie zawsze :/
Byłem ciekawy czy taka amatorka pokaże jakieś różnice między dużymi klubami – wyszło tak sobie. Niestety bardziej produktywne wykluczenia wymagałyby chyba jakiegoś ML albo przynamniej dobrego słownika lub doświadczenia w takich zabawach. Widać za to, że Lewica jednak nie nadużywa słów [TERF i podatki](https://www.reddit.com/r/Polska/comments/rntyr1/dlaczego_polacy_pluj%C4%85_na_lewic%C4%99/) (za to bardziej niż myslałem lubi mówić o sobie), PiS i Konfa nie zawsze odmawiają modlitwy i niszczą czwartą rzeszę, a KO też strasznie od stawki nie odstaje.
Jakby ktoś chciał się też bawić, to, z tego co widzę, poza stroną sejmu jest też twórczośc profesjonalna: http://clip.ipipan.waw.pl/PPC
Nawzajem.