— woensdag 28 april 2021, 09:57 | 1 reactie, praat mee

De rubriek ‘meest gelezen’ is te makkelijk te manipuleren en dat is niet goed

De ‘Meest gelezen’ rubriek van nrc.nl, volkskrant.nl, ad.nl en groene.nl bleek gemakkelijk te beïnvloeden met gesimuleerd webverkeer. Zowel lezers als kranten moeten hun houding jegens de rubriek aanpassen, schrijft data-onderzoeker Jurriaan Parie nadat hij die rubrieken eenvoudig wist te manipuleren. Hij komt met aanbevelingen.

Het is een ongeschreven wet: als beslissingen worden uitbesteed aan systemen, dan probeert men daar misbruik van te maken. Zo manipuleren bots het online publieke debat op Facebook en Twitter door berichten met een bepaalde boodschap actief te verspreiden. Nepaccounts zijn dag en nacht actief met berichten liken en delen, volledig geautomatiseerd.

Of denk aan buitenlandse mogendheden die zich middels zogenaamde trollen mengen in online discussies over nieuwsgebeurtenissen. Expert in conflict- en veiligheidsrecht Eric Myjer waarschuwde in NRC (Opinie, 19 februari 2021) dat de Russische overheid zich niet alleen mengt in nationale verkiezingen in de VS en het VK, maar hoogstwaarschijnlijk ook in Nederland de publieke discussie in aanloop naar de Tweede Kamerverkiezingen heeft geprobeerd te beïnvloeden.

In de strijd om de publieke opinie profileren kwaliteitsmedia zich als een bastion van betrouwbare informatie. Het moederbedrijf van NRC schreef recent: “in tijden van onzekerheid gaan mensen nog meer op zoek naar accurate informatie en onafhankelijke journalistiek”. Het verbaast niet dat gedurende de coronacrisis NRC, de Volkskrant en Trouw recordcijfers aan (digitale) abonnees en websitebezoekers rapporteerden.

Gedachte-experiment
Als gedachte-experiment vroeg ik mij af of kranten en tijdschriften wel bestand zijn tegen digitale inmenging? Zijn algoritmes die webpagina’s gebruiken om lezersgedrag te analyseren te beïnvloeden door webverkeer te simuleren? Vanuit nieuwsgierigheid nam ik de proef op de som en onderzocht of de ‘Meest gelezen’ rubriek op de websites van Nederlandse kranten en tijdschriften te manipuleren zijn.

Door software via willekeurige plekken op de wereld een artikel heel vaak bezoeken, lukte het om op meerdere het algoritme dat de populariteit van online artikelen bepaalt om de tuin te leiden. De truc die ik uithaalde lijkt op het project van de Duitse kunstenaar Simon Weckert die door het voorttrekken van 99 mobiele telefoons in een handkar over een lege weg een file wist te creëren op Google Maps.

De kunstgreep werkte relatief makkelijk: bezoek met veel verschillende IP-adressen (het thuisadres van een computer) een artikel naar keuze en accepteer de cookies die op de webpagina verschijnen. Een cookie functioneert als een digitale vingerafdruk van een websitebezoeker. Op basis van geaggregeerde cookiegegevens stellen websites lezersstatistieken samen en bepalen kranten welke artikelen online het meeste worden gelezen.

Het automatisch bezoeken van websites en het accepteren van cookies is gemakkelijk te automatiseren. Modules voor programmeertaal Python zijn in staat internetbrowser onder de motorkap aan te sturen, waardoor er geen venster van een browser nodig is om een webpagina te bezoeken. Dit heeft als voordeel dat tekst en afbeeldingen niet geladen hoeven te worden. Het achterwege laten van een grafische gebruikersomgeving maakt het mogelijk om geautomatiseerd iedere seconde een website te bezoeken, cookies te accepteren, klik- en scrollgedrag te simuleren, telkens met een ander IP-adres.

Afhankelijk van de capaciteit van de VPN-service die je gebruikt om de IP-adressen te laten rouleren, en afhankelijk van het budget wat je hieraan wilt besteden, kun je dit proces opschalen van 10 bezoeken aan een artikel per minuut (vanaf je eigen computer) naar honderden of duizenden bezoeken per minuut (vanaf een onlineserver met meer rekenkracht).

Zo lukte het om enkele dagen voor de Tweede Kamerverkiezingen in maart 2021 met 10 minuten aan geautomatiseerd webverkeer eerdergenoemd artikel Pas op voor inmenging bij buitenlandse verkiezingen van Eric Myjer in de ‘Meest gelezen’ rubriek van nrc.nl te plaatsen. Later in maart, in aanloop naar het debat over het mislukte formatieproces van Rutte IV, was een middag lang het Recept voor een Indiase dahl het meest gelezen artikel op volkskrant.nl. Ook de lijst met populaire artikelen op ad.nl en groene.nl bleek vatbaar voor manipulatie. De hiaten zijn ondertussen bekend bij de it-afdelingen van de desbetreffende media.

Kwaadwillende bedoelingen
De redacties van de mediabedrijven reageerden allen constructief. Door de Richtlijnen voor ethisch hacken van het Openbaar Ministerie , heb ik geprobeerd duidelijk te maken dat ik geen kwaadwillende bedoelingen had met de inmenging. Zo heb ik proportioneel gehandeld (niet meer gemanipuleerd dan noodzakelijk) en is de opmars van de artikelen in de lijsten met populaire stukken nauwkeurig gedocumenteerd door middel van schermafbeeldingen. Het hiaat in het populariteitsalgoritme van NRC is ondertussen gedicht. De Volkskrant en AD (beiden DPG Media) en de Groene Amsterdammer volgen snel. Een mogelijke oplossing, om bots van menselijk webverkeer te onderscheiden, is om de lijst met populaire artikelen enkel te baseren op abonnees die op de website zijn ingelogd.

Toch blijft bestaan van de rubriek discutabel, want de rubriek stuurt het gedrag van online krantenlezers met niet te verwaarlozen commerciële motieven. Omdat de rubriek prominent in beeld staat op de startpagina’s van online media en verschijnt naast vele artikelen die online worden gelezen, heeft de lijst met populaire nieuwsitems grote invloed op welke artikelen lezers aanklikken en daarna gaan lezen. Een artikel in de top-5 wordt meer gelezen juist omdat het in de top-5 staat. Deze dynamiek is vergelijkbaar met het sturende karakter van zoekmachines. Of het gaat om een zoekmachine of een lijst die populaire artikelen rangschikt, 90% van de clicks belanden op de eerste 5 zoekresultaten. Volgens de wetten van de digitale tijd geldt: the winners take it all. 

Zo heeft het algoritme dat de lijst van populaire artikelen op een webpagina samenstelt in zekere zin een rol als debatleider. Maar als deze belangrijke rol van debatleider wordt overgelaten aan een simpel telalgoritme, niet in staat om menselijk van geautomatiseerd webverkeer te onderscheiden, is het manipuleren van de ‘meest gelezen’ lijst laaghangend fruit voor inmenging in de publieke opinie.

De inmenging beperkte zich tot de rankschikking van nieuwsitems van de krant of het nieuwstijdschrift zelf. Maar stel je voor dat berichtgeving over immigratie, vaccinatiecampagnes of artikelen over een bepaalde politieke partij de lijst met populaire artikelen domineert, terwijl de Tweede Kamerverkiezingen in aantocht zijn. Het zou ongetwijfeld invloed hebben op de opvattingen van online lezers.

Zowel lezers als kranten moeten daarom hun houding jegens de ‘Meest gelezen’ rubriek aanpassen. Lezers moeten zich realiseren dat de rubriek geen objectieve weergave is van de meest gelezen artikelen onder mede-lezers. Vergelijkbaar met de samenstelling van de voorpagina en krantenkoppen, moet er bewustzijn onder lezers groeien dat de manier waarop de website en het populariteitsalgoritme van een krant functioneert een redactionele keuze is. Waarom staat die rubriek naast ieder artikel dat ik lees? Op welke manier stelt de krant de ‘Meest gelezen’ rubriek samen? Zijn het de hoeveelheid bezoekers, het aantal seconden leestijd, de hoeveelheid muisbewegingen of een samenstelling van deze variabelen die bepalen hoe populair een artikel is?

Zelfs als het populariteitsalgoritme naar behoren functioneert, geeft de lijst een vertekend beeld van populair nieuws door het winners take it all-effect. Het is onmogelijk om met een continu zichtbaar scorebord een eerlijke lijst van populaire artikelen samen te stellen. Lezers moeten zich er bewust van zijn dat de digitale methoden die media gebruiken om lezers nieuws te brengen niet neutraal zijn. 

Kranten en nieuwstijdschriften moeten stoppen de ‘Meest gelezen’ rubriek aan lezers op te dringen. Media die pretenderen onafhankelijk en betrouwbaar te zijn, moeten er ook zorg voor dragen dat de discussie over nieuws op een zo onafhankelijk mogelijke manier tot stand komt. Kranten moeten bij zichzelf te rade gaan of de rubriek momenteel ook een doel dient. Is het daadwerkelijk nodig om bij ieder artikel de ‘Meest gelezen’ rubriek te plaatsen om lezers te informeren over nieuws dat ‘populair’ is onder mede-lezers? Of heeft de rubriek ook als doel om kijktijd van lezers te maximaliseren? Waarom krijgt de rubriek niet een onopvallende plek op de startpagina voor lezers die daar behoefte aan hebben en houdt de rubriek zich verder gedeisd op andere webpagina’s van de krant?

Schijn van objectiviteit
Daarnaast moet de naam van de rubriek worden aangepast. De naam ‘Meest gelezen’ of ‘Best gelezen’ wekt de schijn van objectiviteit. Deze namen zijn niet alleen misleidend door het winners take it all-effect, ook is de ‘gemeten populariteit’ alleen gebaseerd op online leesgedrag. De mening van lezers van de papieren krant lijkt er niet toe te doen. Bovendien gaan kranten, met de valse belofte van het ‘beste’ en het ‘meeste’, mee in de trend om sensatie te commercialiseren. Een meer neutrale naam als ‘Anderen lazen ook’ of ‘Veel gelezen’ zou beter passen bij de rubriek.

Dat de hedendaagse analytics-verslaving ook diep is doorgedrongen in de journalistiek blijkt uit het NRC-artikel ‘Hoe machtig is uw klik’. Leescijfers blijken een niet geringe rol te spelen op de redacties van Nederlandse en Vlaamse kranten. Weliswaar zijn statistieken niet één-op-één leidend in de totstandkoming van nieuws, maar tegenvallend lezersbereik heeft wel een rol gespeeld bij het ontslag van een journalist bij het Belgische DPG. Maar wie kan garanderen dat andere analysemethoden van kranten wel naar behoren functioneren?

Neem het internet en algoritmes niet voor lief. Halfslachtige analytics is als het bouwen van een huis op drijfzand. Ondoordachte digitalisering maakt het vervolgens ook nog manipuleerbaar.

Jurriaan Parie is een onafhankelijke datawetenschapper en was tot voor kort verbonden aan de onderzoeksgroep Information Systems van de ETH Zürich.

Praat mee

1 reactie

Joost Ramaer, 30 april 2021, 09:09

Deze comment gaat niet over het interessante en belangrijke verhaal van Jurriaan Parie. Deze comment gaat over de ongelooflijk slordige eindredactie bij Villamedia, waar ik mij al jaren aan erger. Boven dit artikel staat de naam van Dolf Rogmans; ik dacht eerst dat Dolf het verhaal van Parie in eigen bewoordingen had opgeschreven. Pas als je het leest, merk je gaandeweg dat het Parie’s eigen tekst is. En dan ook nog die kromme zinnen: “Door software via willekeurige plekken op de wereld een artikel heel vaak bezoeken, lukte het om op meerdere het algoritme dat de populariteit van online artikelen bepaalt om de tuin te leiden.” Wat stáát hier nou? Ik zou er niet over zeiken als het geen schering en inslag zou zijn op Villamedia, dit soort volstrekt onnodige slordigheden. Dat kán toch niet, op een platform voor en over journalistiek? Doe er wat aan, alsjeblieft?

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Postadres

Villamedia Uitgeverij BV
Postbus 75997
1070 AZ Amsterdam

Bezoekadres

Johannes Vermeerstraat 22
1071 DR Amsterdam

Contact

redactie@villamedia.nl

Redactie (tips?)

Dolf Rogmans
Hoofdredacteur

Marjolein Slats
Adjunct-hoofdredacteur

Linda Nab
Redacteur

Lars Pasveer
Redacteur

Trudy Brandenburg-Van de Ven
Redacteur

Anneke de Bruin
Vormgever

Marc Willemsen
Webontwikkelaar

Vacatures & advertenties

redactie@villamedia.nl

Bereik

Villamedia trekt maandelijks gemiddeld 120.000 unieke bezoekers. De bezoekers genereren momenteel zo’n 800.000 pageviews.

Rechten

Villamedia heeft zich ingespannen om alle rechthebbenden van beelden en teksten te achterhalen. Meen je rechten te kunnen doen gelden, dan kun je je bij ons melden.