În 1999, la zece ani după inventarea World Wide Web, Sir Tim Berners-Lee, un informatician britanic, și-a imaginat o versiune inteligentă a creației sale. În viziunea sa, o mare parte din activitățile cotidiene – căutarea de informații, planificarea, îndeplinirea sarcinilor banale – nu ar mai fi realizate de oameni, ci de „agenți inteligenți”: mașini capabile să citească, să interpreteze și să acționeze. Web-ul a evoluat dramatic de la inventarea sa, dar experiența a rămas manuală – utilizatorii încă tastează, fac clic și navighează înainte de a cumpăra, citi sau viziona, scrie The Economist.
Schimbarea a început în 2022 odată cu lansarea ChatGPT. Mulți utilizatori au început să pună întrebări chatboților, în loc să introducă cuvinte-cheie în motoarele de căutare, pentru a asimila informații care ar putea fi răspândite pe web. Cu toate acestea, astfel de „motoare de răspuns” abia zgârie suprafața potențialului. Kevin Scott, directorul tehnic al Microsoft, un gigant al software-ului, consideră că agenții capabili să gestioneze sarcini mai complexe „nu sunt atât de departe”. Dar pentru ca aceștia să preia o parte mai mare din muncă, infrastructura web trebuie să se schimbe.
Un obstacol central este limba: oferirea unei modalități de a comunica agenților cu serviciile online și între ei. Un site sau un serviciu online comunică în mod normal cu lumea exterioară printr-o interfață de programare a aplicațiilor (API), care le spune vizitatorilor ce pot face, cum ar fi rezervarea unei programări la medic sau furnizarea unei locații pe hartă. API-urile sunt însă scrise pentru oameni și fiecare are propriile particularități și propria documentație. Acesta este un mediu dificil pentru agenții IA, deoarece ei raționează în limbaj natural. Pentru a se descurca cu fiecare API nou, trebuie să învețe dialectul acestuia. Prin urmare, pentru a acționa independent pe web, agenții vor avea nevoie de o modalitate standardizată de comunicare.
Acesta este scopul Protocolului de context model (MCP), dezvoltat de Anthropic, un laborator de IA. Mike Krieger, directorul de produs al acestuia, spune că ideea a apărut în timp ce conecta Claude, chatbotul său, la servicii precum Gmail și GitHub, un depozit de coduri. În loc să integreze fiecare aplicație cu Claude de la caz la caz, firma a dorit un set comun de reguli pentru a ajuta agenții să acceseze direct e-mailurile sau fișierele unui utilizator. În loc să studieze ghiduri tehnice, un agent poate întreba un server MCP ce face un sistem – rezervă un zbor, anulează un abonament, emite o rambursare și așa mai departe – și apoi poate lua o măsură în numele utilizatorului, fără cod personalizat.
Să presupunem că doriți să rezervați o călătorie de la Londra la New York. Începeți prin a comunica planurile dvs. de călătorie unui agent de turism, care apoi împarte sarcina între agenți specializați care pot căuta zboruri, hoteluri și mașini. Acești agenți contactează serverele MCP ale companiilor aeriene, hotelurilor și firmelor de închirieri auto, colectează informații, compară posibilitățile și creează o listă de itinerarii potențiale. Odată ce alegeți o opțiune, agentul de turism va rezerva totul.
Acest tip de coordonare necesită reguli privind modul în care agenții individuali se identifică, comunică și au încredere unii în alții. Soluția propusă de Google este protocolul A2A (agent-to-agent) în acest scop. Agenții își pot promova abilitățile reciproc prin intermediul acestuia și pot negocia ce face fiecare agent. Laurie Voss de la Arize AI, o companie start-up, spune că companiile se află într-o „cursă” pentru a defini standardele dominante pentru web-ul agentic. Protocolul cel mai larg adoptat va permite instrumentelor susținătorilor săi să facă mai multe, mai repede și mai bine. Pe 9 decembrie, Anthropic, OpenAI, Google, Microsoft și alții au anunțat înființarea Agentic AI Foundation, care va dezvolta standarde open-source pentru agenții AI. MCP-ul Anthropic va face parte din aceasta, semnalând adoptarea sa mai largă ca standard industrial pentru comunicarea agenților.
Totuși, cea mai mare parte a web-ului pe care acești agenți vor naviga este creată pentru ochii umani. Găsirea unui produs înseamnă în continuare navigarea prin meniuri. Pentru a permite modelelor lingvistice să acceseze site-urile mai ușor, Microsoft a creat Natural Language Web (NLWeb), care permite utilizatorilor să „discute” cu orice pagină web în limbaj natural. Utilizatorii ar putea întreba interfața NLWeb a unui site de călătorii, de exemplu, pentru sfaturi despre unde să meargă în vacanță cu trei copii sau care sunt cele mai bune magazine de vinuri dintr-un anumit loc. În timp ce căutarea tradițională ar putea necesita clicuri prin filtre pentru locație, ocazie și bucătărie în mai multe meniuri, NLWeb este capabil să surprindă intenția completă a unei întrebări într-o singură propoziție naturală și să răspundă în consecință. Fiecare site NLWeb poate acționa și ca server MCP, expunând conținutul său agenților. Astfel, NLWeb face legătura între internetul vizual modern și cel pe care îl pot utiliza agenții.
Pe măsură ce agenții devin mai capabili, se conturează o nouă competiție între platforme, de data aceasta între agenții înșiși. Aceasta amintește de războiul browserelor din anii 1990, când firmele se luptau pentru controlul accesului la web. Acum, browserele sunt reinventate, având agenții în centrul lor. OpenAI și Perplexity, un startup de AI generativ, au lansat browsere bazate pe agenți care pot urmări zboruri, prelua documente și gestiona e-mailuri. Ambițiile lor merg mai departe. În septembrie, OpenAI a permis achiziții directe de pe anumite site-uri web din ChatGPT. De asemenea, s-a integrat cu servicii precum Spotify și Figma, permițând utilizatorilor să redea muzică sau să editeze designuri fără a schimba aplicațiile.
Astfel de mișcări îngrijorează companiile existente. În noiembrie, Amazon a dat în judecată Perplexity, susținând că startup-ul încălca termenii și condițiile sale de utilizare, deoarece nu dezvăluia că browserul său făcea cumpărături în locul unei persoane reale. Airbnb, o aplicație de închiriere pe termen scurt, a ales să nu se integreze cu ChatGPT, spunând că funcția nu era „destul de pregătită”.
Și publicitatea va trebui să se adapteze. Web-ul de astăzi funcționează pe baza monetizării atenției umane, prin intermediul anunțurilor de căutare și al fluxurilor sociale. Alphabet și Meta, printre cele mai mari firme de tehnologie, se așteaptă să câștige aproape jumătate de trilion de dolari pe an în acest fel, reprezentând peste 80% din veniturile lor. Dawn Song, informatician la Universitatea din California, Berkeley, spune că specialiștii în marketing ar putea fi nevoiți să se adreseze nu oamenilor, ci „atenției agentului”. Site-urile de turism, de exemplu, nu vor convinge călătorul, ci proxy-ul său digital. Tactica poate rămâne aceeași, optimizarea clasamentelor, țintirea preferințelor, plata pentru plasare, dar publicul va fi reprezentat de algoritmi.
Navigarea condusă de agenți ar putea, de asemenea, să extindă considerabil activitatea online. Parag Agrawal, fondatorul Parallel Web Systems, un start-up specializat în inteligență artificială, observă că web-ul a fost construit pentru ca oamenii să citească la viteză umană. Agenții nu se confruntă cu astfel de limite. Ei pot scana mii de pagini în câteva secunde, pot urma linkuri pe care oamenii le ignoră și pot jongla cu sarcini în paralel, multe dintre acestea nefiind afișate niciodată pe ecran. El prezice că agenții ar putea utiliza web-ul de „sute sau mii” de ori mai mult decât oamenii.
Acolo unde acționează agenții, aceștia pot și greși. Un agent IA se poate comporta într-un mod pe care utilizatorul său nu îl înțelege pe deplin. Poate face greșeli, apoi poate inventa explicații. Mai îngrijorătoare este manipularea din exterior. Injectarea promptă – ascunderea comenzilor rău intenționate în pagini web sau fișiere – poate păcăli agenții să divulge date, să ocolească verificările de siguranță sau să întreprindă acțiuni neautorizate.
Măsurile de protecție pot reduce riscurile. Una dintre ele este restricționarea agenților la servicii de încredere. O altă măsură este acordarea de puteri limitate. Unii ar putea fi „doar pentru citire”, având permisiunea de a prelua date, dar nu și de a le trimite sau modifica. Alții ar putea acționa numai cu confirmarea umană. Pentru cele mai sensibile sarcini, poate fi necesar ca o persoană să rămână implicată.
În ciuda riscurilor, dezvoltatorii de software sunt optimiști. Agrawal își imaginează o trecere de la un internet „pull”, în care oamenii inițiază acțiuni, la un model „push”, în care agenții acționează fără a fi solicitați — stabilind întâlniri, semnalând cercetări sau gestionând sarcini mici. Aceasta ar putea fi baza unei versiuni noi și foarte diferite a web-ului. >>
