W badaniu wzięły udział 22 organizacje medialne z 18 krajów, pracujące w 14 różnych językach. W ramach badania przeanalizowano ponad 3 tys. odpowiedzi czterech wiodących asystentów AI: ChatGPT, Copilot, Gemini i Perplexity.
Profesjonalni dziennikarze tych organizacji oceniali odpowiedzi pod kątem dokładności (accuracy), stosowania źródeł (sourcing), zdolności oddzielenia faktów od opinii oraz dostarczania kontekstu.
Asystenci AI przeinaczają treści informacyjne w 45 proc. przypadków
Wyniki badania wskazują poważne i systemowe problemy. Prawie połowa (45 procent) wszystkich analizowanych odpowiedzi zawierało przynajmniej jeden istotny błąd.
Wszelkiego rodzaju błędy stwierdzono w aż 81 proc. odpowiedzi. Źle wykorzystane lub błędne źródła wystąpiły w około 31 proc. odpowiedzi. Ponadto 20 proc. odpowiedzi miało znaczące problemy z dokładnością, w tym zawierało informacje przestarzałe lub zmyślone (halucynacje).

Codziennie rano
Oferty pracy
50 tysięcy subskrybentów
Dziękujemy za zapisanie się do newsletteraWirtualne Media
Najwięcej problemów miał Gemini – dotyczyły one w głównej mierze błędów w przypisywaniu źródeł. Aż w 76 proc. odpowiedzi były istotne błędy, czyli ponad dwukrotnie więcej niż inni asystenci, głównie z powodu słabej jakości podawanych źródeł.
Badanie wskazuje, że sytuacja nie ogranicza się do jednego języka czy kraju. Ma charakter międzynarodowy i wielojęzyczny.
Przełomowe badanie treści w internecie. Wiadomo, ile tworzy AI, a ile ludzie
Autorzy podkreślają, że tego rodzaju wyniki stanowią zagrożenie dla zaufania publicznego do mediów. W ich opinii, jeżeli odbiorcy nie będą wiedzieć, komu lub czemu mogą ufać, skończą na nieufności wobec wszystkiego, co może prowadzić do spadku uczestnictwa w systemie demokratycznym.
Według autorów, ponieważ coraz więcej osób zaczyna korzystać z asystentów AI jako źródła wiadomości, konieczne są pilne działania ze strony dostawców tych technologii – w tym poprawa jakości odpowiedzi, transparentność co do źródeł i wyraźne rozgraniczanie faktów i opinii.
AI używana w medycynie popełnia błędy w blisko 70 proc. przypadków