Het gaat om Common Crawl, een zogenoemde scraper van een Amerikaanse non-profitorganisatie die kopieën van talloze websites maakt. Die kopieën zijn voor iedereen vrij te gebruiken, onder andere om AI-modellen te trainen.
Momenteel bevat Common Crawl 2,6 miljard webpagina’s. Vrijwel alle grote AI-modellen maken gebruik van de collectie, waaronder ChatGPT, Claude en Deepseek.
Tienduizenden Nederlandse sites
Onder de gescrapete websites zitten ook tienduizenden Nederlandse pagina’s, van kleine sites tot grote nieuwsplatforms. Brein stelde vast dat er onder meer artikelen van Nederlandse nieuwssites en digitale kranten in de database zaten, die zonder toestemming zijn gekopieerd.
Nieuwswebsites vormen een belangrijke bron van informatie voor taalmodellen en AI-chatbots. Dat vormt tegelijk een bedreiging voor diezelfde sites, omdat bezoekersaantallen voor nieuwssites door AI kunnen afnemen, waardoor zij minder inkomsten genereren.
Parasiteren
NDP Nieuwsmedia, de brancheorganisatie voor nieuwsbedrijven, stelt dat AI-bedrijven met behulp van dit soort scrapers ‘parasiteren op het werk van journalisten’.
“Het is heel schadelijk voor auteurs en uitgeverijen dat hun teksten zonder toestemming gebruikt worden”, zegt Bastiaan van Ramshorst, de directeur van Brein, tegen RTL Z. “Daarom hebben wij namens een aantal uitgeverijen een verzoek gedaan om die artikelen offline te halen.”
Volgens Van Ramshorst reageerde Common Crawl snel op het verzoek, maar zal het nog wel even duren voor de artikelen allemaal offline zijn. “Dat komt omdat het zo’n grote database is. Dat maakte het ook lastig om erachter te komen welke artikelen er precies in zitten.”
Niet transparant
Dat de artikelen nu niet meer in deze database staan, betekent niet dat ze helemaal niet meer in AI-modellen voor zullen komen. Bestaande modellen hebben de artikelen namelijk al verwerkt, en daar verdwijnen ze niet meer uit. Bovendien bouwen AI-bedrijven ook eigen scrapers, waarvan niet duidelijk is of die auteursrechtelijk beschermde gegevens bevatten.
“Als zo’n model niet transparant is, is het heel moeilijk om uit te vinden wat de onderliggende data is”, zegt Van Ramshorst. “Daar doen wij wel onderzoek naar, maar dat is behoorlijk bewerkelijk.”
Een klein lichtpuntje: volgend jaar gaat een nieuwe Europese wet in, de AI Act, die AI-bedrijven verplicht transparanter te zijn over hun bronnen.
Naast nieuwsberichten en andere tekst, wordt ook muziek gebruikt om AI te trainen. In deze video zie je hoe The Velvet Sundown miljoenen streams scoort, terwijl de band helemaal niet bestaat: