Naukowcy odkryli prosty sposób na zdemaskowanie botów AI. Ta jedna cecha zdradza boty AI w 80 proc. przypadkówKiedyś boty internetowe zdradzał bełkotliwy język i rażące błędy gramatyczne. Dziś, w erze potężnych modeli językowych (LLM), sytuacja obróciła się o 180 stopni. Tekst generowany przez sztuczną inteligencję stał się tak płynny i poprawny, że niemal niemożliwy do odróżnienia. Niemal. Najnowsze analizy naukowców rzucają nowe światło na problem detekcji. Co zatem jest największą i najbardziej zaskakującą słabością najnowszych algorytmów?

Nawet po skomplikowanej kalibracji teksty generowane przez LLM-y pozostają wyraźnie odróżnialne od tekstów ludzkich, szczególnie pod względem tonu afektywnego i ekspresji emocjonalnej – badacze z Uniwersytetu w Zurychu.

Naukowcy odkryli prosty sposób na zdemaskowanie botów AI. Ta jedna cecha zdradza boty AI w 80 proc. przypadków [1]

Google Gemini zastąpi wewnętrzne modele Apple w asystencie AI Siri w systemie iOS 26.4

Zespół Nicola Pagana z Uniwersytetu w Zurychu opracował „computational Turing test”, czyli zautomatyzowany system wykrywający treści AI. W przeciwieństwie do klasycznego testu Turinga nowe podejście wykorzystuje algorytmy klasyfikujące i analizę lingwistyczną. Badanie objęło dziewięć modeli open-source, w tym Llama 3.1, Mistral 7B czy Gemma 3. Eksperymenty na X, Bluesky i Reddit wykazały 70-80 proc. skuteczności w identyfikacji botów. Najbardziej charakterystycznym „podpisem” AI okazał się ton. Modele generowały treści nadmiernie uprzejme, pozbawione spontanicznej negatywności typowej dla ludzi. Analiza toksyczności pokazała, że wszystkie modele uzyskiwały znacząco niższe wskaźniki niż prawdziwi użytkownicy.

Naukowcy odkryli prosty sposób na zdemaskowanie botów AI. Ta jedna cecha zdradza boty AI w 80 proc. przypadków [2]

Character.AI blokuje dostęp dla użytkowników poniżej 18 roku życia po serii pozwów o samobójstwa nastolatków

Naukowcy przetestowali różne strategie optymalizacji, od promptowania po zaawansowany fine-tuning. Udało się zredukować różnice strukturalne, ale ekspresja emocjonalna pozostała nieuchwytna. Co ciekawe, modele z instruction tuning radziły sobie gorzej od wersji bazowych. Llama 3.1 8B bez dodatkowego trenowania lepiej naśladował ludzi niż jego „wyedukowany” odpowiednik. Analogia jest prosta. Jak sfałszowany obraz zdradza zbyt perfekcyjne pociągnięcia pędzla, tak AI zdradza maszynowe pochodzenie przez nadmierną grzeczność. Prawdziwi ludzie są kapryśni, ironiczni, sarkastyczni. Modele trenowane na etycznym zachowaniu są zbyt „dobre”, aby były prawdziwe.

Naukowcy odkryli prosty sposób na zdemaskowanie botów AI. Ta jedna cecha zdradza boty AI w 80 proc. przypadków [3]

Badanie Future of Life. Większość Amerykanów chce wstrzymania rozwoju superAI do otrzymania dowodów bezpieczeństwa

Szacuje się, że aż 64 proc. kont na portalu X może być botami, potrzeba niezawodnych narzędzi detekcyjnych jest niezbędna. Dla użytkowników to praktyczna wskazówka, że podejrzanie uprzejmy komentarz może pochodzić od bota. Dla platform to wyzwanie, jak filtrować sztuczne treści bez banowania prawdziwie grzecznych użytkowników. Badanie ujawnia paradoks. Im bardziej czynimy modele „bezpiecznymi” poprzez instruction tuning, tym bardziej oddalamy je od naturalnej komunikacji. Okazało się, że poprawa jednego aspektu pogarsza drugi, tekst brzmi albo naturalnie, albo przekazuje dokładnie to, co powinien. To powinno skłonić twórców LLM-ów do przemyślenia strategii trenowania.

Źródło: Nicolò Pagan, Petter Törnberg, Christopher A. Bail, Anikó Hannák, Christopher Barrie