Umelá inteligencia dnes odpovie na zdravotné otázky za pár sekúnd. Problém je, že odpoveď síce pôsobí presvedčivo, no často obsahuje chyby. Nová štúdia publikovaná v BMJ Open ukázala, že realita je menej spoľahlivá, než sa na prvý pohľad zdá.
Výskumníci otestovali päť populárnych chatbotov, ChatGPT, Gemini, Grok, Meta AI a DeepSeek. Každý z nich dostal 50 otázok z oblasti zdravia, od rakoviny cez vakcíny až po výživu či športový výkon. Odpovede následne hodnotili dvaja odborníci.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ
Výsledky nepôsobili práve upokojujúco. Takmer 20 % odpovedí označili ako vážne problematické. Približne polovica spadala do kategórie „problémové“ a zvyšok síce nevyzeral kriticky, no stále obsahoval nedostatky. Inými slovami, úplne spoľahlivú odpoveď si dostal len zriedka, informuje portál The Conversation.
Umelá inteligencia ti sebavedomo odpovie, aj keď položíš nesprávnu otázku
Zaujímavé je, že chatboty odpovedali takmer vždy. Z 250 otázok odmietli odpoveď iba dvakrát. To je jeden z najdôležitejších detailov. Skutočný lekár ti v mnohých prípadoch povie, že nemá dosť údajov alebo že odpoveď nie je jednoznačná. AI sa však snaží odpovedať takmer vždy.
„Model má tendenciu vyhovieť aj v situáciách, kde by odborník priznal neistotu,“ naznačujú autori výskumu.
Zdroj: OpenClipart-Vectors z Pixabay
Práve tento „nedostatok pokory“ vytvára problém najmä pri témach, kde veda nemá jasnú odpoveď. Výživa, doplnky stravy alebo športový výkon sú plné protichodných názorov. Chatbot si z nich vyberie jednu verziu a podá ju ako presvedčivý výsledok, aj keď realita je oveľa zložitejšia.
Populárna spravodajská aplikácia pre iOS a Android dostala veľkú aktualizáciu. Pribudlo množstvo nových funkcií, ktoré musíš vyskúšať
Do toho vstupuje ešte jeden faktor, štýl komunikácie. AI modely navrhli tak, aby pôsobili prívetivo, pokojne a sebavedomo. To znie ako výhoda, no v medicíne to môže zavádzať. Keď dostaneš odpoveď, ktorá pôsobí milo a zároveň veľmi istotne, prirodzene jej viac veríš, aj vtedy, keď obsahuje chyby.
„Presvedčivý tón pomáha zakryť faktické nedostatky,“ upozorňujú výskumníci.
Rozdiely medzi jednotlivými systémami neboli dramatické, no existovali. Najhoršie dopadol Grok, kde viac než polovica odpovedí obsahovala problémy. ChatGPT a Meta AI skončili len o niečo lepšie. Celkovo sa však ukázalo, že nejde o problém jednej konkrétnej platformy, ale o širší jav.
Veľkú rolu zohráva typ otázky. Chatboty zvládli lepšie témy ako vakcíny alebo rakovina, kde existuje veľa kvalitných dát. Naopak, výživa a športový výkon ich dostali do problémov. Internet je v týchto oblastiach plný protichodných rád, takže systém často vyberie niečo, čo síce znie dobre, no nemusí byť správne.
Ešte väčší problém nastal pri otvorených otázkach. Keď si položil jednoduchú otázku typu „je toto pravda alebo nie“, chybovosť bola relatívne nižšia. No pri otázkach ako „aké doplnky sú najlepšie pre zdravie“ sa situácia zhoršila. Autori výskumu podotýkajú, že práve takto sa ľudia pýtajú najčastejšie.
Veľkým varovaním sú aj odkazy na zdroje. Chatboty často pridajú citácie, ktoré pôsobia dôveryhodne. Problém je, že tieto odkazy bývajú neúplné, chybné alebo úplne vymyslené. Pri testovaní dosiahla presnosť referencií len okolo 40 %. Žiadny systém nedokázal vytvoriť úplne správny zoznam zdrojov.
„Citácie vyzerajú ako dôkaz, no laik nemá dôvod pochybovať, aj keď sú nesprávne,“ upozorňujú autori štúdie: „Práve to robí tieto odpovede nebezpečnými, pôsobia dôveryhodne aj vtedy, keď nie sú.“
Umelá inteligencia nedokáže hodnotiť dôkazy ako kvalifikovaný lekár
Dôvod, prečo sa to deje, je pomerne jednoduchý. Jazykové modely nefungujú ako lekári. Nehodnotia dôkazy ani nerobia odborné rozhodnutia. Predpovedajú najpravdepodobnejšie slová na základe dát, na ktorých sa učili. A tieto dáta zahŕňajú nielen vedecké štúdie, ale aj diskusie z fór či blogov.
Zdroj: Morrowind / Shutterstock.com
Ďalšie výskumy ukázali podobný obraz. Štúdia v Nature Medicine zistila zaujímavý paradox. Chatbot dokázal správne odpovedať takmer v 95 % prípadov, keď však rovnaký nástroj použili bežní ľudia, správnu odpoveď získali menej než v 35 % prípadov. Problém teda nespočíva iba v samotnej odpovedi, ale aj v tom, ako ju pochopíš a použiješ.
Iný výskum publikovaný v JAMA Network Open ukázal, že AI má problém s diagnostikou, keď dostane len základné informácie. Presnosť výrazne stúpla až po doplnení detailných dát, ako sú výsledky testov.
Z toho vyplýva jednoduchý záver. AI vie pomôcť, no nemala by byť jediným zdrojom rozhodovania. Môže ti vysvetliť problém, pomôcť pripraviť otázky pre lekára alebo zhrnúť informácie. Nemala by však nahradiť odborníka.
Tieto nástroje tu zostanú a budú sa zlepšovať. Zatiaľ však platí, že rýchla odpoveď ešte neznamená správnu odpoveď. Pri zdraví sa oplatí spomaliť a overiť si, čo čítaš.
Páčil sa vám článok? Sledujte nás na Facebooku