— donderdag 4 maart 2021, 09:00 | 2 reacties, praat mee

Transcriptie-tools, van spraak naar tekst

© Monica Schokkenbroek

Interviews opnemen betekent in de regel dat je na afloop het gesprek terug moet luisteren om dat wat er gezegd wordt uit te schrijven. Transcriptie-tools beloven je dat werk uit handen te nemen. We legden er vier onder het vergrootglas.

Dit artikel wordt met je gedeeld door NVJ-lid Nick Kivits. Ook lid worden?

Om maar meteen met de deur in huis te vallen: een tool die geautomatiseerd perfecte transcripties maakt van je opgenomen interviews bestaat niet. De kunstmatige intelligentie achter dit soort tools is simpelweg nog niet zo ver dat hij alle accenten perfect herkent of gefluister goed kan verstaan. En wanneer sprekers door elkaar praten of gesprekken propvol zitten met jargon, gaan ze nogal eens de mist in. Maar wat niet is kan nog komen. Transcriptie-tools zijn nooit uitgeleerd: hoe meer audio ze te verwerken krijgen, hoe beter hun systemen woorden om leren zetten naar tekst. Kun je daar niet op wachten? Dan zijn de volgende tools het bekijken waard.

AmberScript
Interpunctie is iets waar de meeste transcriptie-tools nog moeite mee hebben. Toen ik in 2017 voor het eerst dergelijke apps bekeek (die eerdere test vind je op: tek.st/ib), was dat bij het in Amsterdam gebouwde AmberScript ook nog het geval. De software bleek erg veel moeite te hebben met achterhalen wanneer een zin nou afgelopen was en of iemand een vraag stelde.

Vier jaar later is dat herkennen van interpunctie aanzienlijk verbeterd. En hetzelfde geldt voor de algehele kwaliteit van de transcripties. Hoewel AmberScript nog lang niet foutloos werkt, leverde de tool bij alle vier onze tests redelijk bruikbare resultaten op. Ook tijdens onze test met meerdere sprekers in een videovergadering, pikte AmberScript de wat zachtere stemmen aardig op. Het herkennen van verschillende sprekers gaat ook stukken beter dan bij mijn eerste test in 2017.

Ondanks die verbeteringen zijn er nog valkuilen waar AmberScript in trapt. Met name met het herkennen van namen en jargon heeft de tool meer moeite dan de concurrenten (AmberScript verbasterde bijvoorbeeld ‘Het Parool’ naar ‘Peru’). Dergelijke fouten herstellen gaat dan wel weer snel: AmberScript laat je je transcriptie bewerken in een online teksteditor en laat je gelijktijdig de audio terugluisteren.

Een transcriptie die honderd procent woordelijk correct is, is wat teveel gevraagd van dit soort tools. Wie dat toch wil, kan bij AmberScript wel zo’n transcriptie aanvragen. De transcriptie wordt dan in eerste instantie automatisch verwerkt en daarna gecorrigeerd door een mens. Een fijne extra dienst, die met een vanaf prijs van 1,90 euro per minuut dan wel weer aardig duur is.

Accuraat bij goede kwaliteit audio: ****
Accuraat bij slechte kwaliteit audio: ***
Snelheid: ***
Kosten: 30 minuten gratis, daarna € 15,00 per uur
amberscript.com

De resultaten van onze vier tests met Amberscript. Test 1 betreft een audio-opname met één spreker. Voor test 2 namen we een telefoongesprek tussen twee sprekers op. Bij test drie is de transcriptie van audio uit een video-vergadering tussen vier sprekers te zien. Test 4 betreft een opname uit een tv-uitzending van De Wereld Draait Door.

Voicetoscript
De meeste transcriptie-tools slaan niet alleen de uitgeschreven tekst op hun servers op, maar ook de geüploade audio- of videobestanden. Bij een interview over, bijvoorbeeld, iemands journalistieke carrière maakt dat niet zoveel uit. Maar wanneer een gesprek gevoelige informatie bevat, kan het beter zijn om de audio en tekst niet zomaar rond te laten slingeren op servers van een ander.

Bij Voicetoscript heb je daar geen last van. De in België ontwikkelde web-app bewaart namelijk niets. Audiobestanden worden na het omzetten naar tekst meteen verwijderd. Ook de transcriptie blijft niet online staan. Voicetoscript levert hem per mail bij je af. Dat gaat ook nog eens erg snel.

Net als Happy Scribe geeft Voicetoscript aan waar hij verwacht fouten te hebben gemaakt. Die delen van de tekst krijgen in de transcriptie een oranje kleur. De tool is daarin iets te onzeker en bestempelt stukken tekst regelmatig als ‘vermoedelijk fout’ terwijl de transcriptie gewoon klopt.

Het feit dat tekst en audio niet op een server worden bewaard is prettig, maar brengt wel een nadeel met zich mee. Tekst terugluisteren en rechtstreeks je transcriptie bewerken zoals bij de andere tools in dit overzicht kan bij Voicetoscript niet. En die optie heb je helaas wel nodig, want de resultaten zijn op het moment van schrijven nog niet al te best.

Waar het in 2020 gelanceerde Voicetoscript bij onze tests met één spreker en een fragment van een televisieprogramma nog best aardig scoorde, waren de transcripties van tests met meerdere sprekers onwerkbaar. Helaas, want een transcriptie-tool die bestanden niet opslaat op een server zou een gat in de markt kunnen zijn.

Accuraat bij goede kwaliteit audio: ***
Accuraat bij slechte kwaliteit audio: *
Snelheid: ****
Kosten: 30 minuten gratis, daarna 10 tot 15 cent per minuut.
voicetoscript.com

De resultaten van onze vier tests met Voicetoscript. Test 1 betreft een audio-opname met één spreker. Voor test 2 namen we een telefoongesprek tussen twee sprekers op. Bij test drie is de transcriptie van audio uit een video-vergadering tussen vier sprekers te zien. Test 4 betreft een opname uit een tv-uitzending van De Wereld Draait Door.

SpeedScriber
Als je een app de naam SpeedScriber geeft, dan schep je bepaalde verwachtingen wat de snelheid van je transcriptie-app betreft. Gelukkig voldoet SpeedScriber ruimschoots aan die verwachtingen. Een transcriptie van een uur aan audio staat na tien tot vijftien minuten klaar in de app, die (helaas) alleen beschikbaar is voor de Mac.

Wanneer de transcriptie klaar is doet de SpeedScriber-app dienst als een uitgebreide tekstverwerker, waarin je de geüploade audio of video kunt afspelen en live mee kunt lezen met de transcriptie. Je audio en video kunnen ook versneld worden afgespeeld, wat fijn is als je snel wil controleren of de transcriptie klopt. SpeedScriber probeert sprekers te identificeren, zodat stukken tekst per spreker gegroepeerd worden. Al gaat dat helaas niet altijd even soepel.

Het resultaat van de razendsnelle transcripties van SpeedScriber wisselt en is ook erg afhankelijk van de kwaliteit van de audio. Bij een test met een stukje video uit een televisie-uitzending mist SpeedScriber soms een woord en is hij wat happig met zinnen beëindigen (door een punt te zetten), terwijl ze nog niet afgelopen zijn. Bij audio van een digitale vergadering tussen vier personen mist de tool met regelmaat hele zinnen, vooral als sprekers door elkaar praten. Bij een telefoongesprek met twee sprekers zit het resultaat er een beetje tussenin.

Op plekken waar SpeedScriber de mist in gaat, kun je de transcriptie zelf aanpassen met behulp van je toetsenbord. Handig is de mogelijkheid om woorden die vaak fout gaan, zoals jargon of namen, toe te voegen aan een woordenlijst waarmee je het verkeerd geschreven in één keer vervangt.

Accuraat bij goede kwaliteit audio: ***
Accuraat bij slechte kwaliteit audio: **
Snelheid: *****
Kosten: 15 minuten gratis, daarna 30 tot 41 cent per minuut audio.
speedscriber.com​

De resultaten van onze vier tests met SpeedScriber. Test 1 betreft een audio-opname met één spreker. Voor test 2 namen we een telefoongesprek tussen twee sprekers op. Bij test drie is de transcriptie van audio uit een video-vergadering tussen vier sprekers te zien. Test 4 betreft een opname uit een tv-uitzending van De Wereld Draait Door.

Happy Scribe (Villamedia’s keuze)
Sommige transcriptie-tools zijn wat beter in verwachtingsmanagement dan anderen. Happy Scribe is er daar een van. De web-app geeft aan welke woorden hij niet goed heeft kunnen verwerken, bijvoorbeeld doordat sprekers door elkaar heen praatten of doordat de kwaliteit van de audio niet goed genoeg was. Vermoedelijke fouten worden in de transcriptie aangegeven met een rode kleur.

Dat wil echter niet zeggen dat Happy Scribe in de rest van de tekst helemaal geen fouten maakt, al viel het aantal fouten bij onze test mee. Ook bij audiobestanden met meerdere sprekers en een lage audiokwaliteit vielen er geen lange stukken tekst weg, al is het aantal rode woorden wel aanzienlijk hoger bij lage audiokwaliteit. Fouten met namen of jargon kun je proberen te ondervangen door voor het starten van de transcriptie een lijst met ‘moeilijke woorden’ in te voeren.

Wat snelheid betreft mag Happy Scribe achteraan sluiten in het rijtje. Audio omzetten naar tekst duurde bij alle tests die we deden ruim twee keer zo lang als de duur van het audiobestand zelf. Maar als je Happy Scribe aan het werk zet en je tussendoor andere klusjes doet, hoeft die traagheid niet storend te zijn.

Wanneer een transcriptie klaar is, laat Happy Scribe je deze controleren en bewerken in je browser. Audio kan daarbij versneld en vertraagd worden afgespeeld, en tekst aanpassen doe je op dezelfde manier als in een tekstverwerker. De tool herkent verschillende sprekers best aardig, slaat ook oude versies van je transcriptie op en laat je een transcriptie omzetten in een ondertiteling of rechtstreeks vertalen met Google Translate.

Accuraat bij goede kwaliteit audio: ****
Accuraat bij slechte kwaliteit audio: ***
Snelheid: *
Kosten: Eén audiobestand gratis (max. 10 minuten), daarna € 9,50 tot € 12,00 per uur.
happyscribe.com

De resultaten van onze vier tests met Happy Scribe. Test 1 betreft een audio-opname met één spreker. Voor test 2 namen we een telefoongesprek tussen twee sprekers op. Bij test drie is de transcriptie van audio uit een video-vergadering tussen vier sprekers te zien. Test 4 betreft een opname uit een tv-uitzending van De Wereld Draait Door.

Verantwoording
Voor deze test bekeek Villamedia vier tools die beloven geluidsbestanden om te zetten in tekst. We hebben specifiek gekeken naar software die je na afloop van je interview een geluidsbestand laat uploaden. Apps die live gesprekken transcriberen (zoals Google Live Transcribe) hebben we buiten beschouwing gelaten, omdat dat het vergelijken van de prestaties lastiger maakt. We hebben iedere tool dezelfde geluidsbestanden gevoerd en de resultaten met elkaar vergeleken: een audiobestand met één spreker, een opgenomen telefoongesprek tussen twee sprekers, een stukje video uit een televisie-uitzending met twee sprekers (De Wereld Draait Door) en audio uit een video-vergadering met vier sprekers, opgenomen via Jitsi Meet. Alle tests zijn gedaan in het Nederlands.

Bekijk meer van

Praat mee

2 reacties

Peter de Ruiter, 6 maart 2021, 09:52

Ik maak ook geregeld interviews in het Engels. HappyScribe zet die vrijwel feilloos om. Het zal nog wel een tijdje duren voor HappyScribe ook goed Nederlands kan, al is het opmerkelijk dat de software al veel namen van BN’ers herkent - vast geleerd van een landgenoot!

An da Silva, 23 september 2021, 13:27

@Peter de Ruiter, bedankt voor de aanvulling. Ik moest een interview met iemand die Engels (India) spreekt transcriberen en kwam er echt niet uit.

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Postadres

Villamedia Uitgeverij BV
Postbus 75997
1070 AZ Amsterdam

Bezoekadres

Johannes Vermeerstraat 22
1071 DR Amsterdam

Contact

redactie@villamedia.nl

Redactie (tips?)

Dolf Rogmans
Hoofdredacteur

Marjolein Slats
Adjunct-hoofdredacteur

Linda Nab
Redacteur

Lars Pasveer
Redacteur

Trudy Brandenburg-Van de Ven
Redacteur

Anneke de Bruin
Vormgever

Marc Willemsen
Webontwikkelaar

Vacatures & advertenties

redactie@villamedia.nl

Bereik

Villamedia trekt maandelijks gemiddeld 120.000 unieke bezoekers. De bezoekers genereren momenteel zo’n 800.000 pageviews.

Rechten

Villamedia heeft zich ingespannen om alle rechthebbenden van beelden en teksten te achterhalen. Meen je rechten te kunnen doen gelden, dan kun je je bij ons melden.