data als kans

— dinsdag 22 november 2022, 09:01 | 0 reacties, praat mee

Een flitscursus Oekraïens, zonder een woord Oekraïens te leren dankzij synthetische media

© Dreamstime

Met de combinatie van de juiste technische tools, zet je een Nederlands gesproken video in een paar stappen om in een video in een andere taal. De Nederlandse start-up XS2Content doet precies dat en maakte voor Villamedia een oproep aan Oekraïense journalisten. Laatste wijziging: 22 november 2022, 14:20

Lees ook onze verantwoording over de totstandkoming van onze Oekraïne-video.

Шановні українські журналісти (Beste Oekraïense journalisten). Met die zin begint de twintig seconden durende video-oproep van Villamedia, waarin we - in het Oekraïens - aangeven op zoek te zijn naar journalisten in Oekraïne. We willen ze vragen hoe zij de oorlog beleven, hoe ze daarvan verslag doen en tegen welke problemen ze aanlopen.

Hoewel er genoeg Oekraïense collega’s zijn die prima Engels spreken, willen we ze aanspreken in hun eigen taal. Zodat we hopelijk ook de journalisten bereiken die niet al op meerdere plekken in de media te horen en te zien zijn geweest.

Eén probleem: we spreken geen Oekraïens. Toch rollen in onze korte video de Oekraïense zinnen vloeiend uit de mond van ondergetekende. De stem is niet de mijne, maar mijn lippen bewegen wel op de juiste manier mee met de woorden. Al kun je, als je goed kijkt, wel zien dat er in sommige frames iets net niet helemaal goed gaat met mijn tanden. Let je daar niet te veel op en ken je mijn stem niet, dan lijkt het net alsof ik een flitscursus Oekraïens heb doorlopen en de taal vlekkeloos spreek.

Van tekst naar…
‘We zijn hard op zoek naar een manier om de mondbewegingen te verbeteren’, vertelt Sebastian Plasschaert. Hij is samen met medeoprichter Richard Otto een van de drijvende krachten achter XS2Content, een Nederlandse start-up die geautomatiseerd content van de ene vorm omzet in een andere. XS2Content begon begin 2020 als XS2Radio, en zette in die hoedanigheid geschreven nieuwsberichten om in radio-bulletins. De start-up doet dat onder andere voor Business Insider Nederland en DPG Media, en laat ook de nieuwsbrief van het online platform De Ondernemer praten.

Inmiddels doet de start-up veel meer dan dat. XS2Content richt zich op ‘synthetische media’: media die gemaakt of bewerkt zijn met behulp van kunstmatige intelligentie. Het bedrijf kan geschreven berichten omzetten in video’s, audiofragmenten maken voor sociale media en gesproken video’s vertalen. Onlangs kluste het bedrijf bijvoorbeeld een automatische voice-over in elkaar voor MTV. Een animatievideo in het Engels, kreeg een (bewust) robotachtig klinkende vertaling in het Italiaans, Portugees en Frans, die onder andere werd gedeeld op TikTok. Daarnaast zet XS2Content tekst op de website van een middelgrote gemeente automatisch om in video, waarbij de tekst wordt uitgesproken door een avatar wiens mond ook meebeweegt met de gesproken woorden. En in weer een andere video spreekt een Nederlandse hoofdpersoon plots vloeiend Chinees, dankzij de technologie van de start-up.

De animatievideo van MTV, waarvoor XS2Content automatische vertalingen maakte. Artikel gaat verder onder de video.

‘We willen een systeem maken waarin je een video of stuk audio uploadt, kiest wat daarmee moet gebeuren en vervolgens het resultaat te zien krijgt’, aldus Plasschaert in het M Gebouw, het Hilversumse kantoorgebouw waar ook omroep KRO-NCRV is gevestigd. Het hoofd techniek vervolgt: ‘Ons doel is een technologie bouwen, waarmee onze klanten zelf geautomatiseerde pijplijnen kunnen samenstellen. We zijn daar al een flink eind mee op weg, maar er komt ook nog veel handwerk bij kijken.’

Automatische voice-over
De Oekraïense video-oproep die XS2Content voor Villamedia maakte, heeft nogal wat stappen moeten doorlopen. Nadat ik in mijn zolderkamer een wat hol klinkende video-oproep opnam (in het Nederlands), filtert XS2Content eerst de audio uit die video. Dat doet de start-up met de tool LALAL.AI. Plasschaert: ‘Het fijne aan die tool is dat hij in staat is achtergrondgeluid uit video’s te filteren. LALAL.AI geeft je twee sporen: een met de gesproken audio en een met bijvoorbeeld de muziek die te horen is. Omdat je twee losse audiosporen hebt, kun je met het spoor met de gesproken tekst verder en daar aan het eind van de rit het spoor met de achtergrondgeluiden weer onder monteren. Daardoor kunnen we ook video’s vertalen en achtergrondgeluid behouden. Alleen met stemgeluid op de achtergrond kan de tool niet goed overweg.’

Dit is de oorspronkelijke video, waarin redacteur Nick onze oproep uitspreekt in het Nederlands. Artikel gaat verder onder de video.

Nadat XS2Content de audio uit mijn video filtert, laat de start-up deze uitschrijven. Dat gebeurt met behulp van kunstmatige intelligentie (AI). Dergelijke programma’s, zogenoemde speech-to-text-software, zijn nog niet perfect maar worden jaar na jaar beter (Villamedia test ze met regelmaat, omdat je ze ook kunt gebruiken om interviewbandjes mee uit te werken).

Omdat speech-to-text-software nog niet altijd even goed is met interpunctie, zet XS2Content ook schrijfsoftware GPT-3 in. Dat is AI die aan de hand van een hele hoop voorbeelden zelf tekst kan schrijven. Plasschaert: ‘We zetten GPT-3 in om interpunctie te verbeteren en om zinnen te repareren die niet lekker lopen. Ook GPT-3 is niet de heilige graal wat schrijfsoftware betreft. Maar als pleister werkt het heel goed.’

De uitgeschreven tekst wordt aangevuld met tijdstempels, zodat montagesoftware kan zien bij welk deel van de oorspronkelijke video de uitgeschreven tekst hoort. Vervolgens vertaalt XS2Content de tekst. Dat doet de start-up met een combinatie van verschillende vertaalprogramma’s. Denk aan Google Translate, maar dan nog net wat secuurder. De vertaalde tekst wordt daarna weer omgezet in audio met behulp van verschillende soorten spraaksoftware. ‘We kunnen daarbij uit talloze verschillende stemmen kiezen. We gaan op zoek naar de stem die het meest overeenkomt met die van de persoon die de tekst oorspronkelijk heeft ingesproken.’

Mond dicht
Het resultaat op het scherm is op dit punt een video met een geautomatiseerde, gegenereerde voice-over. Voor animatie-video’s zoals die van MTV is dat doorgaans al genoeg, als je een boodschap wil overbrengen in een andere taal. En ook voor ons doel - het bereiken van Oekraïense journalisten - zouden we met de video met de voice-over al prima uit de voeten kunnen.

In deze video is de gesproken tekst vertaald naar het Oekraïens. Artikel gaat verder onder de video.

Toch vragen we XS2Content om ook een video te maken waarbij de bewegingen van mijn mond gelijk lopen met de Oekraïense tekst. Voor zo’n zogenoemde lipsync heeft XS2Content niet heel veel extra’s nodig. ‘De software die we voor lipsyncs gebruiken, heeft aan vier of vijf filmpjes van een minuut al genoeg’, aldus Plasschaert. ‘Maar helemaal perfect is die software nog niet. Hij kan nog niet uit zichzelf goed iemands mond dicht krijgen en houden. Het is daarom belangrijk dat we ook frames hebben waarin iemand zijn mond dichthoudt.’

Vanwege tijdgebrek, XS2Content werkt op het moment van schrijven aan twee grote projecten, blijft het verder optimaliseren van de lipsync in onze video uit. De paar frames waarin mijn tanden er wat gek uitzien nemen we voor lief. Net als een rechthoekige kadertje om mijn mond, waaraan je kunt zien dat de bewegingen van mijn mond gemanipuleerd zijn met software. Al is dat vooral te zien als je de video op een hogere resolutie afspeelt. ‘Het volledig aanbieden van vertaalde lipsync-video’s doen we dan ook nog niet actief. Daarvoor is het nu nog te vroeg. Maar we staan wel open voor pilots.’

In deze video is de tekst vertaald naar het Oekraïens en zijn lipbewegingen automatisch aangepast, om gelijk te lopen met de gesproken tekst. Artikel gaat verder onder de video.

...al moet je waken voor misbruik
Een paar dagen later krijgen we nog een extra video, waarin XS2Content met een andere techniek de mondbewegingen heeft verbeterd. In die video, die in het Engels is gesproken, is het probleem met de frames met rare tanden opgelost. De mimiek is wel wat ‘zenuwachtig’. ‘Met meer tijd zouden we mimiek en stemritme nog kunnen optimaliseren, waardoor de video iets natuurlijker wordt’, legt medeoprichter Richard Otto uit. ‘Deze andere techniek voor lipsyncen willen we ook in onze pijplijnen gaan opnemen.’

In deze Engelstalige video is het lipsyncen verbeterd. Artikel gaat verder onder de video

De productie van onze video laat volgens Otto goed zien hoe die pijplijn van XS2Content moet gaan werken. De start-up stapelt veelal bestaande programma’s op elkaar en voegt daar een aantal eigen tools aan toe. Otto voorziet een grote toekomst voor de techniek van zijn start-up, die volgens hem onder andere gebruikt kunnen worden bij de productie van webinars en nieuwsvideo’s.

Otto en Plasschaert zitten wel een beetje met het ethische vraagstuk. Met de verzameling tools die XS2Content gebruikt, kun je iemand in feite alles laten zeggen wat je wil. Helemaal als je daar ook nog eens voice cloning bij gebruikt, een techniek die met behulp van AI een stem namaakt (in deze Nederlandstalige en in deze Engelstalige video hoor je daar een voorbeeld van). ‘We willen daar voorzichtig mee zijn, omdat we ons realiseren dat je ook misbruik kunt maken van deze technieken’, aldus Otto. ‘Daarom willen we bij alles wat we maken heel duidelijk vermelden dat het gaat om synthetische media, content die door software is gemanipuleerd.’

Terwijl XS2Content verder bouwt aan zijn pijplijn, deelt Villamedia de Oekraïne-video op zijn sociale media. Of dat ons nieuwe contacten oplevert en of we dankzij de video – al dan niet met de hulp van een tolk - in contact komen met Oekraïense journalisten, weten we niet. Aan de techniek kan het in ieder geval bíjna niet meer liggen.

Tip de redactie

Wil je Villamedia tippen, maar is dat te gevoelig voor een gewone mail? Villamedia is aangesloten bij Publeaks, het platform waarmee je veilig en volledig anoniem materiaal met de redactie kunt delen: publeaks.nl/villamedia

Praat mee

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Uitgever

Dolf Rogmans

Postadres

Villamedia Uitgeverij BV
Postbus 75997
1070 AZ Amsterdam

Bezoekadres

Johannes Vermeerstraat 22
1071 DR Amsterdam

Factuurgegevens

Villamedia Uitgeverij BV
Johannes Vermeerstraat 22
1071 DR Amsterdam

Contact

redactie@villamedia.nl

Redactie (tips?)

Chris Helt, hoofdredacteur

Marjolein Slats, adjunct-hoofdredacteur

Linda Nab, redacteur

Lars Pasveer, redacteur

Trudy Brandenburg-Van de Ven, redacteur

Rutger de Quay, redacteur

Sales

Sofia van Wijk

Jenny Fritschy

Webontwikkeling

Marc Willemsen

Vacatures & advertenties

redactie@villamedia.nl

Bereik

Villamedia trekt maandelijks gemiddeld 120.000 unieke bezoekers. De bezoekers genereren momenteel zo’n 800.000 pageviews.

Rechten

Villamedia heeft zich ingespannen om alle rechthebbenden van beelden en teksten te achterhalen. Meen je rechten te kunnen doen gelden, dan kun je je bij ons melden.