Indrukwekkende nieuwe versie OpenAI’s GPT-model opent deur naar nieuwe toepassingen
OpenAI, het bedrijf achter tekstgenerator ChatGPT en plaatjesmaker DALL-E, heeft een nieuwe versie van hun datamodel onthuld. GPT-4o kan video, audio en tekst in real-time verwerken. De spraakuitvoer heeft een flinke sprong gemaakt, met een natuurlijker timbre en dictie - zeker vergeleken met de gangbare meer monotone uitspraak van Apple's Siri en Google Assistant.
In hun lente-update (vermoedelijk niet geheel toevallig één dag voor de jaarlijkse Google IO-conferentie) werden de vaardigheden van GPT-4o gedemonstreerd. Toegang tot het nieuwe model is op dit moment alleen voor leden met een abonnement van 20 dollar per maand. Op termijn komen de nieuwe functies ook in het gratis model beschikbaar.
Het nieuwe model is volgens OpenAI in staat om met een vertraging van 232-320 milliseconden op audio-invoer te reageren. Dat is vergelijkbaar met een menselijke responstijd in een lopend gesprek, aldus OpenAI. In demonstratievideo’s van de spraakfuncties blijkt dat je de spraakuitvoer kunt onderbreken, zoals je dat met een menselijke gesprekspartner ook kunt.
Natuurlijke gesprekspartner
OpenAI demonstreerde onder meer toepassingen voor blinden en slechtzienden, waarbij de ChatGPT-app via de camera beschrijft wat er te zien en kon aangeven of een aanrijdende taxi vrij was. De spraakuitvoer maakt gebruik van subtiele (inadem-geluiden en menselijke intonaties) en minder subtiele (gegniffel en gelach) signalen om een natuurlijke gesprekspartner te emuleren. Desgevraagd kan GPT-4o sparren voor een aanstaand sollicitatiegesprek of meer sarcasme hanteren.
Dat klonk voor mijn Europese oren als een zekere auditieve uncanny valley. In de reacties onder de YouTube-demonstratievideo’s reageerde iemand snedig dat het OpenAI uitstekend is gelukt Amerikaanse oppervlakkigheid te vangen. De Nederlandse versie van de stem klinkt als een Amerikaan die foutloos Nederlands heeft leren spreken, met een innemend accent.
GPT-4o moet wat betreft talen anders dan Engels sowieso een stuk beter presteren, stelt OpenAI. De productie van beeld en programmeerkunsten zijn in de nieuwste versie flink verbeterd. Meer bij OpenAI


Praat mee