Chris Helt — donderdag 6 november 2025 09:24 | 0 reacties , praat mee

Common Crawl verwijdert twee miljoen nieuwsartikelen waarmee zonder toestemming AI-modellen werden getraind

Meer dan twee miljoen artikelen, inclusief stukken die gepubliceerd werden op Nederlandse nieuwswebsite en andere titels, stelde Common Crawl te beschikking aan bedrijven die hun zogenoemde taalmodellen voor AI-toepassingen wilden trainen. Onder hen openELM van Apple, Phi van Microsoft, ChatgPT van OpenAI, Nemo Megatron van NVIDIA, DeepseekV3 van Deepseek en Claude van Anthropic. Stichting BREIN stak hier een stokje voor en verzocht de non-profitorganisaties succesvol om de desbetreffende artikelen te verwijderen. Laatste wijziging: 6 november 2025, 09:40

Common Cralw had geen toestemming om de veelal auteursrechtelijk beschermde werken in haar databank op te slaan en door te geven.

Een aantal Nederlandse nieuwsuitgevers riep BREIN op om verhaal te halen bij Common Crawl. Specifieker; de door de organisatie gekopieerde webpagina’s moeten uit de database verwijderd worden, zodat de AI-diensten deze niet langer kunnen pakken om hun modellen te trainen.

De missie van BREIN is succesvol afgerond, Common Crawl heeft de ruim twee miljoen artikelen weggehaald.

“Het grootschalige ongeautoriseerd gebruik van beschermde werken om generatieve artificial intelligence modellen te trainen is een gigantische inbreuk op auteursrechten. In deze zaak gaat het om het wegnemen van de mogelijkheid om eenvoudig miljoenen persartikelen te kunnen overnemen uit de database van Common Crawl. Eerder haalde BREIN ook al andere Nederlandstalige trainingsdatasets offline”, zegt BREIN directeur Bastiaan van Ramshorst op de eigen website.

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Uitgever

Postadres