Promotie-onderzoek: Algoritmes die zelf robotjournalisten bouwen

Journalistieke artikelen laten schrijven door software (robotjournalistiek), is al jaren in opkomst. Toch kan robotjournalistiek nog een heel stuk beter, stelt onderzoeker Chris van der Lee. Vrijdag promoveert hij op onderzoek naar robotjournalistiek.
Iedere gemeente zijn eigen artikel, met daarin de uitslag van de Provinciale Statenverkiezing. Niet geschreven door menselijke redacteuren (ga er maar aan staan: 355 verschillende stukjes in heel korte tijd), maar door een softwarerobot. Het is, naast RTL Nieuws dat een ‘robot’ talloze artikelen lieten schrijven over gevaarlijke kruispunten, tot nu een van de mooiste voorbeelden van robotjournalistiek in Nederland.
Hoe mooi die voorbeelden ook zijn, robotjournalistiek kan nog een stuk beter. Dat stelt Chris van der Lee, onderzoeker bij Tilburg University. Van der Lee deed de afgelopen jaren onderzoek naar softwaresystemen die data kunnen omzetten in tekst. Dergelijke systemen liggen aan de basis van de robotjournalistiek in de genoemde voorbeelden. Op vrijdag promoveert Van der Lee op zijn onderzoek.
‘Toen ik in 2016 begon met mijn onderzoek, was robotjournalistiek een hype’, aldus Van der Lee in gesprek met Villamedia. ‘In de Verenigde Staten waren er een paar bedrijven druk mee bezig en ook in Nederland was het in opkomst.’
Van der Lee vervolgt: ‘De robotjournalistieke software die we nu hebben werkt aardig, maar is ook nog erg beperkt. Ze lezen data in en verwerken die in tekst-stramienen. Hoewel dat automatisch gaat, is het bouwen van zo’n robotjournalist nog altijd heel veel werk. En het levert niet altijd genoeg op om de investering te verantwoorden. Daardoor durven media niet door te pakken met robotjournalistiek.’
Een computer leren leren
Het grote probleem met robotjournalistieke systemen is volgens Van der Lee dat ze veel handwerk vereisen. Programmeurs schrijven de regels code, waarna de software de artikelen schrijft. Dat kan efficiënter, denkt Van der Lee. ‘Als je het schrijven van de code automatiseert, wordt het bouwen van robotjournalisten niet alleen sneller maar ook goedkoper.’
De oplossing, volgens Van der Lee: zelflerende machine learning-modellen. Zo’n systeem kan aan de hand van artikelen en de bijbehorende data, leren hoe journalisten van vlees en bloed data verwerken in hun verhalen. ‘Als je zo’n zelflerend model maar genoeg artikelen en data laat zien, kan hij verbanden ontdekken tussen die twee’, legt Van der Lee uit. ‘Uiteindelijk kan hij met die kennis zelf een algoritme schrijven, dat soortgelijke artikelen kan maken nadat je er data in stopt.’
Voor zijn onderzoek bouwde Van der Lee zelf zo’n systeem. Hij legde daarvoor een database aan met krantenartikelen. Het algoritme van Van der Lee leerde uiteindelijk redelijke artikelen produceren. ‘Soms zaten er wat rare fouten in de tekst’, geeft hij toe. ‘Je hebt bij een zelflerend algoritme nog wel een menselijke eindredacteur nodig. Maar dat is bij reguliere journalistiek niet anders.’
Van data naar… infographic?
Algoritmes die zelf robotjournalisten bouwen die daarna op hun beurt artikelen schrijven aan de hand van data, kan robotjournalistiek volgens Van der Lee bruikbaar maken voor meer redacties. Al zijn er nog wel wat randvoorwaarden. ‘Wanneer de robotjournalist klaar is, staat of valt zijn werk bij de data die je invoert. Als je de juiste data op de juiste manier invoert, kan dat goede artikelen opleveren. Maar is de data niet goed, dan is het artikel dat ook niet.’
Na zijn promotie wil Van der Lee verder gaan met zijn onderzoek naar robotjournalisten. Hij ziet onder andere mogelijkheden voor zelflerende machine learning-modellen, die data om kunnen zetten naar afbeeldingen. Zulke systemen kunnen bijvoorbeeld infographics maken, aan de hand van data. En ook met zijn huidige onderzoek wil Van der Lee verder. ‘Mijn belangrijkste doel is iets te ontwikkelen dat ook echt in de praktijk wordt toegepast.’
Praat mee