mgm nvj maart

— maandag 28 juni 2021, 10:23 | 0 reacties, praat mee

De assistent van de onderzoeksjournalist; hoe algoritmes de journalistiek ondersteunen

De assistent van de onderzoeksjournalist; hoe algoritmes de journalistiek ondersteunen
Coen van de Ven - © Bob Bronshoff

Net als bij de komst van het internet staan we opnieuw aan de vooravond van een technologische revolutie. Kunstmatige intelligentie gaat de komende jaren de samenleving én de journalistiek ­radicaal veranderen. In deel 3 van een 4-delige serie: De assistent van de onderzoeksjournalist; hoe algoritmes onderzoeks­journalisten ondersteunen. Laatste wijziging: 5 oktober 2021, 14:52

Eind vorig jaar werden er in de Westelijke Sahara plots 1,8 miljard bomen gevonden. Het gebied, dat doorgaans wordt afgebeeld als dorre zandvlakte – bleek veel meer vegetatie te bevatten dan tot dan werd aangenomen.

De bomen werden niet ontdekt door een toevallige passant, maar door een supercomputer en onderzoekers uit Kopenhagen. Tot dusver was informatie over het gebied gebaseerd op schattingen en aannames. Het handmatig in kaart brengen van het gebied dat circa 1,3 miljoen vierkante kilometer bevat, zou immers veel te veel tijd kosten.

Kunstmatige intelligentie bracht daar verandering in. Middels hoge resolutie satellietbeelden en een slim algoritme, werden bomen en andere objecten moeiteloos van elkaar onderscheiden. Het systeem optuigen, de beelden verzamelen en de computer de benodigde berekeningen laten doen is weliswaar complex, maar valt in het niet bij de tijdwinst.

Een van de journalisten die inmiddels dichtbij huis van de algoritmische hoed en de rand weet is Coen van de Ven. Als redacteur bij De Groene Amsterdammer deed hij samen met wetenschappers van de Universiteit Utrecht onderzoek naar het percentage haatdragende tweets richting vrouwelijke politici.

Het onderzoek laat zien dat zeker 10 procent van alle berichten haatdragende of agressieve inhoud bevat. Sigrid Kaag krijgt het het zwaarst te verduren, circa elke 15 minuten ontvangt de D66-leider een intimiderend bericht.

Ondanks deze misère is het onderzoek een prachtige voorbeeld van het voordeel van machine learning. Van de Ven, die zichzelf een ‘enorme alfa’ noemt, analyseerde met behulp van wetenschappers ruim één miljoen tweets die verstuurd waren tussen 1 oktober 2020 en 26 februari 2021.

Om de machine vervelende reacties te leren herkennen, labelden ze ruim 10.000 tweets handmatig. Er volgde een crosscheck om te zien of er geen foute labels waren gegeven. Het hele traject kostte het team enkele maanden, ook omdat ze voor de productie diverse interviews met de betrokkenen wilden afnemen.

Van de Ven: ‘Het spannende was of we het systeem konden trainen op een hoge mate van betrouwbaarheid. Als het systeem te onvoorspelbaar zou zijn, hadden we veel werk voor niets gedaan. In dat geval zouden we over zijn gegaan op een steekproef van de verzamelde tweets. Het siert de hoofdredactie dat ze ons de ruimte hebben gegeven om te experimenteren.’

Het gebruik van machines kwam niet alleen het onderzoek ten goede, het zette Van de Ven en zijn collega’s ook aan het denken over objectiviteit. ‘Voordat je een machine learning-model gaat trainen, moet je heel veel tweets handmatig voorzien van labels, bijvoorbeeld “agressief”, “seksistisch” of “niets aan de hand”. Dan ga je in discussie over wanneer iets seksistisch is. De ene vindt een reactie als “ach meisje” niet zo erg, terwijl een ander dat als denigrerend bestempelt.

Of neem de opmerking “daar moet een piemel in”, die met enige regelmaat voorbij komt. Is dat dreigend, is het een oproep, is het haatdragend of een flauwe carnavalsleus? Bij het doornemen van de eerste set tweets, lagen de meningen behoorlijk ver uit elkaar. We hebben veel discussie gevoerd en besloten om bij twijfelgevallen voor het minst heftige label te gaan.

We schrijven veel over hoe tech-bedrijven “bias” bedoeld en onbedoeld in hun algoritmes hebben zitten. Als je met machine learning aan de slag gaat, merk je hoe snel die vooroordelen en subjectiviteit de systemen insluipen. Die komen van de mensen die deze systemen hebben getraind.’

Van de Ven vertelt graag over zijn ervaringen met data en algoritmes en is daarom geregeld te gast bij de cursus ‘Praktisch aan de slag met Artificial Intelligence’ van Laurens Vreekamp van de NVJ Academy. Vreekamp verdiende zijn strepen onder meer bij Google News Lab en is oprichter van Future Journalism Today.

‘In de cursus zie ik mijzelf als rij-instructeur. Ik neem journalisten mee in het besturen van algoritmes, maar ga niet zelf de motor bouwen. We leggen de fundamenten uit van de ­theorie en gaan er ook zelf mee aan de slag. Zo ervaren cursisten ineens dat er heel veel handwerk komt kijken bij het trainen van een model, en dat je geduld moet hebben. Zelfs als je de rekenkracht aan een clouddienst uitbesteedt, kan je zomaar één of meerdere dagen moeten wachten totdat je dataset verwerkt is.’

‘De toepassingen waar cursisten mee aan de slag gaan, lopen enorm uiteen: we hebben emblemen gelabeld van leden van extreemrechtse groeperingen, zodat we op basis van foto- en videomateriaal bij protesten konden herkennen welke organisaties, of zelfs specifieke chapters daarbij aanwezig waren. Een andere cursist wilde niet zozeer zelf werken met algoritmes, maar onderzoekers en bedrijven die dat wel doen inhoudelijk kunnen bevragen over hun werkwijze en methodes. Er zijn organisaties als Algorithm Watch die dit doen, maar het is ook goed om als journalist zelf die basiskennis te hebben.’

Een van de cursisten van Vreekamp is de doorgewinterde datajournalist Jerry Vermanen. Vermanen verdiept zich al tien jaar in de mogelijkheden van data en won onlangs met het programma Pointer (KRO-NCRV) een journalistieke Tegel – zijn tweede. ‘Als ik zie hoe er vandaag de dag over AI wordt gesproken, doet mij dat erg denken aan de beginjaren van data in de journalistiek. Er worden veel aannames gedaan en hoewel er veel over wordt gesproken, zijn maar weinig mensen er echt mee bezig.

Tegelijkertijd is het een fascinerende tijd: je kunt weer gaan pionieren. Dat vraagt wel wat vertrouwen in jezelf en van je redactie, want experimenten vragen veel tijd en kunnen ook hopeloos mislukken.’

Tekst loop door onder de afbeelding. © Eva Roefs

Voor de praktijkopdracht bij de cursus van Vreekamp, besloot Vermanen een model te trainen dat automatisch vuurwapens kon herkennen in afbeeldingen die op Twitter worden geplaatst. ‘Het idee is dat je geautomatiseerd bedreigingen in de gaten zou kunnen houden. Dat begint bij het verzamelen van tweets met specifieke keywords zoals “9mm” en “bullet”, die ook een afbeelding bevatten. Vervolgens gebruikte ik een gratis tool genaamd Lobe.ai die je eenvoudig kunt trainen op het herkennen van objecten op foto’s. Daarvoor heb ik een stuk of vijfhonderd voorbeeldafbeeldingen gebruikt en een scriptje om het proces te versnellen. Dit is grotendeels handwerk en een tijdrovend klusje, maar als je ondertussen een podcast of Spotify-playlist opzet, ga je er ook zo doorheen.’

‘Toen ik het systeem ging testen, vond er een soort magie plaats: ik drukte op een knop en foto’s van Twitter werden met 97 procent betrouwbaarheid beoordeeld of er wel of geen vuurwapen op te zien was. Dergelijke systemen zullen gemeengoed worden voor onderzoeksjournalisten. Ons werk is enorm tijdrovend en alles wat je kan helpen efficiënter te werken, moet je met beide handen aan­grijpen.’

Vermanen, Vreekamp en Van de Ven zijn uitzonderingen op de praktijk. In Nederland wordt in de journalistiek nog maar mondjesmaat gebruik gemaakt van de mogelijk­heden die kunstmatige intelligentie biedt.

Dat blijkt uit een analyse van Yael de Haan, lector kwaliteits­journalistiek in digitale transitie aan de Hogeschool Utrecht. Samen met haar team deed ze het afgelopen jaar onderzoek naar het gebruik van algoritmes en zelflerende computersystemen in het werkveld. Hiervoor spraken ze met 27 journalisten over hun ideeën en daadwerkelijke ervaringen met het werken met kunstmatige intelligentie. De conclusie: er is veel debat gaande over de rol, mogelijkheden en uitdagingen van de technologie, maar als handlanger in het productieproces worden AI-tools zelden ingezet.

De Haan: ‘Je merkt dat er veel te doen is rondom de mogelijkheden van AI als het gaat over de distributie van artikelen zoals recommendation engines die gepersonaliseerde nieuwsfeeds maken. Je ziet hoofdredacties en uitgevers filosoferen over de mogelijkheden in de verre toekomst. Wat opvalt is dat er bij journalisten op de vloer nog veel onwetendheid is over de technologie. Er gaan veel folk theories de ronde, voortgekomen uit een beeld dat je over iets hebt gevormd – maar dikwijls niet gebaseerd op feiten. Deze folk theories staan je werk als journalist in de weg. Als poortwachter van de informatie­samenleving is het belangrijk dat je begrijpt hoe algoritmes – of het gaat om zoekmachines of sociale media – werken en hoe ze jouw werk beïnvloeden. Nu worden ze vaak gezien als een black box waarbij je geen idee hebt waarom bepaalde resultaten eruit komen. Bovendien is het belangrijk te beseffen dat je er al dagelijks, middels de algoritmes achter zoekmachines en sociale media, mee te maken hebt. Deze basiskennis is essentieel om je werk goed te kunnen doen. Journalisten moeten beseffen dat AI geen hype is. Het is hier, gaat niet meer weg en het beïnvloedt in rap tempo je werkveld. Om bij te blijven zal je jouw kennis hierover moeten bijspijkeren. Daar is ook een grote rol weggelegd voor de journalistieke onderwijsinstellingen.’

Vermanen sluit zich daarbij aan: ‘Je moet je als journalist blijven ontwikkelen om relevant te blijven. Nu lijkt AI op het eerste gezicht intimiderend, zeker als je geen achtergrond hebt in wiskunde of statistiek. Het mooie is: dat heb je helemaal niet nodig. Technisch wordt er met verschillende software heel veel werk uit handen genomen. Ik zou iedereen aanraden zich er nu in te verdiepen en die voorsprong te pakken.’

Lees ook:
Deel 1:
Wat iedere journalist moet weten over kunstmatige intelligentie
Deel 2:
ADAM en Maura, de nieuwe robotcollega’s op de redactie

De serie artikelen over kunstmatige intelligentie wordt mede mogelijk gemaakt door het Lucas Ooms Fonds.

Tip de redactie

Logo Publeaks Wil je Villamedia tippen, maar is dat te gevoelig voor een gewone mail? Villamedia is aangesloten bij Publeaks, het platform waarmee je veilig en volledig anoniem materiaal met de redactie kunt delen: publeaks.nl/villamedia

Praat mee

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Uitgever

Dolf Rogmans

Postadres

Villamedia Uitgeverij BV
Postbus 75997
1070 AZ Amsterdam

Bezoekadres

Johannes Vermeerstraat 22
1071 DR Amsterdam

Factuurgegevens

Villamedia Uitgeverij BV
Johannes Vermeerstraat 22
1071 DR Amsterdam

Contact

redactie@villamedia.nl

Redactie (tips?)

Chris Helt, hoofdredacteur

Marjolein Slats, adjunct-hoofdredacteur

Linda Nab, redacteur

Lars Pasveer, redacteur

Trudy Brandenburg-Van de Ven, redacteur

Rutger de Quay, redacteur

Nick Kivits, redacteur

Sales

Sofia van Wijk

Emiel Smit

Teddy van der Laan

Webbeheer

Marc Willemsen

Vacatures & advertenties

vacatures@villamedia.nl

Bereik

Villamedia trekt maandelijks gemiddeld 120.000 unieke bezoekers. De bezoekers genereren momenteel zo’n 800.000 pageviews.

Rechten

Villamedia heeft zich ingespannen om alle rechthebbenden van beelden en teksten te achterhalen. Meen je rechten te kunnen doen gelden, dan kun je je bij ons melden.