
Secondo quanto riferito per la prima volta dal portale di informazione 404Media, infatti, Reddit ha cominciato a bloccare la scansione e l’indicizzazione del suo sito da parte della stragrande maggioranza dei motori di ricerca in circolazione. Anzi, diciamo pure tutti, tranne uno: Google.
Motivo: non danno garanzie sull'uso per addestramento AI, con Google invece hanno un accordo
by dhc21
5 comments
Tutti usano Google quindi non penso cambierà molto, ma tanto traffico lo ricevono comunque tramite motori di ricerca
Il motivo secondo me è che, semplicemente, vogliono impedire lo scraping/miglioramento degli LLM che non siano di Google, visto che Google appunto paga 60mln l’anno a Reddit per poterlo fare.
ovviamente il fatto che questi dati che si fanno pagare da google sono prodotti da noi utenti e non da loro e’ irrilevante, no?
Vi correggo, Reddit non può bloccare l’indicizzazione di un bel niente.
Reddit ha aggiornato il suo file robots.txt inserendo un disallow generale.
Questa è una istruzione che i motori di ricerca e i crawler DOVREBBERO rispettare ma è tutto nelle loro mani e reddit non ci può fare nulla.
Idealmente Google, che ora ha una partnership con Reddit, ha consigliato di fare questa mossa per scoraggiare alcuni competitor in campo AI.
Se avete notato c’è OpenAI che ha appena annunciato SearchGPT, un competitor AI based di Google.
Togliergli reddit è una mossa intelligente ma conoscendo Sam Altman loro continueranno a fare crawling e scraping di reddit in modo illegittimo.
In pratica se ne sbatteranno del robots proprio come tutti si sono sbattuti dei TOS di YouTube e tutti hanno addestrato le AI video-generative sui video del tubo senza contegno (es. Sora).
Il blocco imposto da reddit realisticamente impatterà solo sui motori di ricerca secondari come duckduckgo. I grandi motori e le aziende di AI se ne sbatteranno e prenderanno i dati a gogo con un pò di proxy a rotazione per non farsi bannare.
questa non è una cosa paragonabile al multi lane internet che si combatteva anni fa (la c’entravano le ISP)