— woensdag 1 juni 2022, 11:46 | 0 reacties, praat mee

Laurens Vreekamp interviewt Coen van de Ven: Met machine learning voorbij de anekdotes

Voor zijn boek The Art of AI, een praktische introductie in machine learning voor mediamakers, interviewde Laurens Vreekamp journalist Coen van de Ven over het onderzoek dat hij en zijn collega Karlijn Saris deden voor hun artikel Misogynie als geheim wapen in de Groene Amsterdammer. Saris en Van de Ven ontvingen onder andere een Tegel voor hun onderzoek. Dit gesprek tussen Vreekamp en Van de Ven is hieronder als voorpublicatie op Villamedia te lezen. Laatste wijziging: 2 juni 2022, 11:01

Toen Kajsa Ollongren, de toenmalige Nederlandse minister van Binnenlandse Zaken, in 2018 stelde dat er Russische propaganda verspreid werd in Nederland, wilde onderzoeksjournalist Coen van de Ven weten: “Wat doen die Russen dan eigenlijk?”

Hij ontmoette Robert van der Noordaa (“een klassieke nerd”) en met subsidie van het Fonds Bijzondere Journalistieke Projecten werkten ze samen aan onderzoek dat uitmondde in de publicatie Het MH17-complot – de invloed van Russische internettrollen. Ze toonden met hun dataonderzoek aan dat er meer dan 100.000 tweets verstuurd waren om de online discussie in Nederland over de vliegramp te beïnvloeden. “Dat is meer dan bij Amerikaanse verkiezingen het geval was. Dat was meganieuws,” vertelt Coen als we hem thuis spreken aan zijn eettafel.

Gebruik dezelfde ‘wapens’
Als we het belangrijk vinden voor onze democratie dat de macht gecontroleerd wordt, zo stelt Coen, die werkzaam is voor opinieweekblad De Groene Amsterdammer, dan moeten journalisten ook dezelfde middelen gebruiken die de macht gebruikt. Het is volgens hem een zogeheten no-brainer: “De hele samenleving bestaat uit data, ieder bedrijf heeft data-afdelingen. Banken, politie – vrijwel alle machten gebruiken het. En daarom moet je dus ook snappen wat data en AI is, hoe je daarmee werkt en wat er allemaal kan met machine learning. Het moet in je gereedschapskist zitten. Je moet daar in mee.”

Instagram-onderzoek
Als voorbeeld noemt Coen een van de onderzoeken die hij deed naar Instagram en YouTube, over hun omgang met (politieke) content. “Die bedrijven zijn niet transparant over hun keuzes. Dat konden we nu zelf onderzoeken door bundeling van krachten.”

Hij werkte daartoe samen met de Duitse ngo Algorithm Watch en de Nederlandse publieke omroepen NOS en KRO-NCRV. De vier partijen stelden gezamenlijk de onderzoeksvragen op waarbij Algorithm Watch zorgde voor de technologische ondersteuning om informatie over de werking van het Instagram-algoritme te verzamelen, zoals het ‘loggen’ van de getoonde berichten in de nieuwsfeed van gebruikers. De journalisten wilden weten hoe boodschappen van politici op Instagram in verkiezingstijd, geplaatst vanaf het persoonlijke account van de volksvertegenwoordiger, wel of geen ‘aandacht’ kregen van het Instagram-algoritme. Alle drie de redacties publiceerden naar aanleiding van dit gezamenlijke onderzoek hun eigen stukken op basis van de bevindingen.

De kunst is: hoe kun je een vak dat in essentie niet hoeft te veranderen, wel esthetisch en in verpakkingsvorm veranderen?

Samenwerken en koffiedrinken
Dat samenwerken steeds belangrijker wordt, tussen journalisten van verschillende redacties, maar ook met niet-gebruikelijke partners, is een van de dingen die we leren als we Coen van de Ven spreken in zijn woning. Het appartement oogt licht ontregeld. Niet gek, want er staat een verhuizing naar een andere stad op de planning. Voordat we aan de eettafel plaatsnemen – we mogen er niet op knoeien want hij wordt nog doorgegeven – toont Coen zijn in coronatijd ontwikkelde baristavaardigheden bij een zeer exclusief ogende Italiaanse espressomachine. Nadat hij de koffiebonen vers maalt en daar een anekdote bij vertelt, schakelt Coen moeiteloos over naar complottheorieën, het te prefereren gebruik van het woord ‘deelpublieken’ boven de ongefundeerde ‘filterbubbel’-theorie en het uitvlooien van een miljoen tweets op zoek naar seksistische uitlatingen.

Want daarom zijn we hier: of hij wil vertellen hoe je data en machine learning gebruikt om te doen waar Coen zelf gezegd het liefst mee bezig is: klassieke journalistiek. “Dat gaat over onderzoek, uitleg en verantwoording. De kunst is: hoe kun je een vak dat in essentie niet hoeft te veranderen, wel esthetisch en in verpakkingsvorm veranderen?” Daar ziet Coen bij uitstek een rol voor machine learning en voor meer kennis over AI bij journalisten.

‘Enorme alfa’
Hij is naar eigen zeggen een ‘enorme alfa’. “Ik ben blij dat m’n stereo werkt en ik heb een nieuwe telefoon, maar ik kick niet op technologische innovatie.” Waar hij wel op kickt? “Een vraag beantwoorden op een manier die we eerst niet konden.” Coen noemt een voorbeeld: “We kunnen vragen nu verregaander beantwoorden, het gebruik van technologie wordt functioneler. Mijn enthousiasme zit dan in: wat vet dat dit bestaat. En ik heb een vraag. Dus: hoe gaan we dat toepassen?”

Het duurt altijd even voordat makers en creatieven nieuwe technologie op waarde weten te schatten en de (on)mogelijkheden ervan leren kennen. Coen vergelijkt het met eerdere noviteiten in het journalistieke metier: “De eerste toepassingen van datajournalistiek vond ik gortdroog, weinig creatief. Tegenwoordig kun je denken, al zit je op de sport-, kunst- of economieredactie: ‘welke grote vragen hebben we?’ En: ‘kunnen we dat met data oplossen?’”

Onderzoek naar seksisme
Deze en andere inzichten heeft hij opgedaan door zijn ervaring met projecten die veel data bevatten. Een daarvan is het onderzoek naar online seksisme gericht op Nederlandse volksvertegenwoordigers. Voor dat project hadden Coen en zijn team op basis van een uitgebreide selectie- en zoekopdracht in totaal 1.268.889 twitterberichten verzameld. Ongeveer een kwart daarvan, 339.932 tweets, was verstuurd aan vrouwelijke politici. “Dat konden we echt niet handmatig labelen. Dus de vraag werd: hoe kunnen we dat wél doen?”

Met een groep van vier – twee redacteuren van De Groene en twee onderzoekers van de Utrecht Data School (een afdeling van Universiteit Utrecht) – labelden ze handmatig 10.400 unieke tweets. Dat zijn er 2.600 per persoon. Het team labelde in de eerste fase allemaal dezelfde tweets om consistentie en consensus te bereiken. Er werd voorafgaand en na een eerste ronde labelen dan ook uitgebreid gediscussieerd over verschillen in interpretatie, om zodoende de classificatie (het labelen zelf) zo consequent mogelijk uit te voeren, ongeacht de annotator.

Met die ruim 10.000 gelabelde tweets – ze gebruikten hiervoor de opensourceannotatiesoftware Doccano (zie paragraaf 3.3 voor uitleg over deze tool) – trainden ze vervolgens een machinelearningmodel om de resterende 320.000 tweets te kunnen classificeren. Het project had een duidelijke looptijd en relevantie: de periode van 1 oktober 2020 tot 1 maart 2021 – de campagnetijd voor de Tweede Kamerverkiezingen in Nederland (die op 21 maart 2021 plaatsvonden).

In hoeverre beïnvloedt het platform waarop we online discussiëren onze gesprekken?

Van idee online naar impact op reële samenleving
Alhoewel hij voor zijn huidige werk vaker in Den Haag te vinden is, was Coen bij De Groene Amsterdammer tot voor kort een van de drijvende krachten achter de dataprojecten. Voor die verhalen onderzocht hij complottheorieën en werkte hij veel samen met universitaire onderzoekers. “We merkten: we doen veel onderzoek naar het publieke debat online. En dat nam soms een aantal maanden in beslag, dus dat werd duur.” Ze besloten om er een zelfstandig project van te maken, dat ze ‘Data & Debat’ noemden. Coen, plagend: “NRC heeft Opinie en Debat. Doen wij de feiten.”

De eerste onderzoeksvraag bij Data & Debat-verhalen is altijd: “Hoe is dit idee online gaan reizen?” De tweede gaat over de impact daarvan op de reële samenleving. Als laatste onderzoeken Coen en zijn team wat de rol is van technologie daarbij: “In hoeverre beïnvloedt het (ontwerp van het) platform waarop we online discussiëren onze gesprekken? Voor de journalistiek is die vraag interessant: die technische architectuur heeft invloed, maar hoe?”

Over deze onderzoeksprojecten zegt hij: “We doen opnieuw iets heel klassieks: het beschrijven van ideologieën in Nederland. We verdiepen ons in het denken van de maatschappij. We stellen vragen als: ‘is er een Nederlandse alt right?’ en we behandelen allerlei ‘ismes’: antisemitisme, seksisme, fascisme en coronacomplotten, boze boeren en anti-overheidsdenken. En: is er zoiets als de complotelite?”

Sociale grondstofsoorten
Vaak gebruikt Coen socialemedia-inhoud als grondstof voor zijn werk. Hoe hij naar verschillende sociale netwerken kijkt en die benut, heeft ook te maken met hoe Data & Debat werkt. Coen schetst een voorbeeld van de verschillende karakters van online platforms en de invloed van technologie op het debat. Bij de eerdere verhalen over complottheorieën (zoals de vermeende relatie tussen 5G-zendmasten en de verspreiding van covid-19) haalden ze hiervoor de inhoud van Twitter. Maar toen Coen en zijn team oog kregen voor het fenomeen ‘conspiritualiteit’ en bleek dat dezelfde theorieën ook door heel andere groepen in de samenleving werden omarmd, herverpakt en verspreid, kwamen ook influencers op Instagram in Coens data terecht.

Hij maakt overigens direct de kanttekening dat “alhoewel Twitter geen afspiegeling van de samenleving is – het is de plek voor iedereen met een grote bek, voor de ‘kletsende klasse’ – kun je wel uitleggen wat de betekenis ervan is. We bestuderen dit platform, want het is het meest politieke sociale medium. Instagram is meer voor vakantie en lifestyle. Twitter is dan iets meer de krant, van de harde thema’s. Instagram de human interest.”

Werken met AI’ers
Over de samenwerking met ML-ontwikkelaars is Coen heel enthousiast: “Ja, ik heb grote bewondering voor hun skills. Ik vind het vet wat zij kunnen. Ik vraag ze: vertel me daarover. Ik praat heel veel met ze, probeer dingen af te pellen en goed te luisteren naar wat programmeurs zeggen en denken.” Zo heeft Coen tijdens het seksismeonderzoek urenlang gevideobeld met Joris Veerbeek van de Utrecht Data School (UDS), om onderzoeksvragen te formuleren en aanpakken te bespreken. Zo deed Coen het kwalitatieve werk en boog Joris zich over het kwantitatieve vraagstuk. “Dan zei Joris: ‘O, we kunnen dan wel dit downloaden en dan deze dataset bouwen.’”

Door al die uren samenwerken en discussiëren is hij tot een inzicht gekomen: een goede, gelijkwaardige samenwerking tussen academici en journalisten helpt meer dan beide partijen. De wetenschap (die soms in een isolement kan opereren) levert een concrete bijdrage aan het maatschappelijk debat, doordat de journalistiek diepgravender wordt dankzij de toegang tot onderzoeksmiddelen die tot voor kort onbereikbaar leken. Coen geeft een specifiek voorbeeld over samenwerken met een ML-expert van de UDS: “Ik denk dan vaak: ‘Als jij dít kan, dan kunnen we ook dát…’” Door samen te werken leerde hij meer over de terminologie en de concepten en kan hij snel schakelen. “Zo kon ik na een interview met politica Lisa Westerveld een bepaald fenomeen – ze wordt online altijd met ‘je/jij’ aangesproken – checken met Joris: ‘zoek dat even uit’.”

Wij hadden een muur met feiten gebouwd, aan de hand van data

Begrijpen en verantwoorden
Wat ook meespeelt is dat bij onderzoeken waarbij AI is ingezet, veel vragen komen van lezers. Coen: “Dan wijzen we op verantwoording bij het stuk.” Die zijn vaak nog uitgebreider dan de stukken zelf. Het is ook nog een goede reden waarom redacteuren en academici de verantwoordingsartikelen bij de onderzoeken samen schrijven. Coen: “Ik wil elke stap snappen.” Daarom pleit hij er ook voor dat journalisten, mediamakers en andere creatieven meer en vaker samenwerkingen moeten aangaan als ze willen beginnen met AIgebruik binnen hun werk. “Ga allianties aan met universiteiten, ngo’s zoals Algorithm Watch en met programmeurs.” Het belangrijkste daarbij is dat je luistert naar deze experts: “Laat het hen uitleggen. Zorg ervoor dat je de concepten van machine learning afpelt en realistische verwachtingen hebt van de technologie.”

Als laatste wil Coen over de samenwerking met universiteiten graag twee misverstanden uit de weg ruimen. “De eerste is dat mensen denken dat wij een datarapportje bestellen bij de UDS. Dat is niet zo, wij zijn geen ‘domme’ uitvoerders’.” En de tweede is andersom: De Groene Amsterdammer is geen passief doorgeefluik van leuk onderzoek dat bij de universiteit is geïnitieerd. Hij wil maar zeggen: wees je ervan bewust bij nieuwe (soorten) samenwerkingen dat je je werkwijze en rolverdeling dus goed dient te verantwoorden.

Met machine learning voorbij de anekdotes
Met het onderzoek naar seksisme en de haat richting vrouwelijke volksvertegenwoordigers in het online debat, ontdekte Coen nog iets dat met de inzet van machine learning mogelijk werd. Je kunt met data en algoritmen ‘ergens boven gaan hangen’. “Bekijk Twitter eens. We kunnen daar nu heel mooi groepjes uittekenen en het verloop van het debat heel mooi beschrijven. Dat doen we analytisch en in detail: wie zijn de deelnemers, waar staan ze, wat zeggen ze?” Als voorbeeld noemt Coen een vraag die hij opeens kon gaan beantwoorden: “Wat zijn de zelfstandige naamwoorden die mensen gebruiken? Bij onderzoek naar antisemitisme valt op dat in rechtse hoek woorden als ‘kosmopolieten’ (voor George Soros bijvoorbeeld) worden gebruikt, en men in linkse hoek meer antikapitalistische kritiek heeft, die zich vertaalt naar haat richting de steenrijke Rothschild-familie.”

“Wij zijn geïnteresseerd in per definitie ongrijpbare zaken: seksisme, fascisme. Dat behandelden we tot nu vooral in anekdotes. Die zijn makkelijk te weerleggen: ‘ja maar ik heb iets anders meegemaakt.’ Het bevond zich in de zachtere wetenschap. Met ons onderzoek hebben we nu iets structureels aangetoond. Met behulp van data en technologie zijn we in staat om abstracte zaken concreter te maken.”

Dat geldt natuurlijk niet alleen voor journalisten, maar voor alle verhalenvertellers. “Je kunt de patronen zien die er wel zijn, doordat je ze in data hebt gevat. En dat is ook echt van deze tijd: als het niet in data te vatten is, bestaat het niet.” Het resulteerde in welwillend meewerken van de vrouwelijke politici die het betrof. “Het ging niet meer om anekdotes. Wij hadden een muur met feiten gebouwd, aan de hand van data.”

Bekijk meer van

artificiële intelligentie

Tip de redactie

Wil je Villamedia tippen, maar is dat te gevoelig voor een gewone mail? Villamedia is aangesloten bij Publeaks, het platform waarmee je veilig en volledig anoniem materiaal met de redactie kunt delen: publeaks.nl/villamedia

Praat mee

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Uitgever

Dolf Rogmans

Postadres

Villamedia Uitgeverij BV
Postbus 75997
1070 AZ Amsterdam

Bezoekadres

Johannes Vermeerstraat 22
1071 DR Amsterdam

Factuurgegevens

Villamedia Uitgeverij BV
Johannes Vermeerstraat 22
1071 DR Amsterdam

Contact

redactie@villamedia.nl

Redactie (tips?)

Chris Helt, hoofdredacteur

Marjolein Slats, adjunct-hoofdredacteur

Linda Nab, redacteur

Lars Pasveer, redacteur

Trudy Brandenburg-Van de Ven, redacteur

Rutger de Quay, redacteur

Nick Kivits, redacteur

Sales

Sofia van Wijk

Emiel Smit

Loes Smit

Webbeheer

Marc Willemsen

Vacatures & advertenties

vacatures@villamedia.nl

Bereik

Villamedia trekt maandelijks gemiddeld 120.000 unieke bezoekers. De bezoekers genereren momenteel zo’n 800.000 pageviews.

Rechten

Villamedia heeft zich ingespannen om alle rechthebbenden van beelden en teksten te achterhalen. Meen je rechten te kunnen doen gelden, dan kun je je bij ons melden.