13 november 2023
AI stem CMC Tech

De new wave van AI-gestuurde stemtechnologie

Afbeelding door DALL-E 3
Laatste update: 13 nov '23 - 16:16

Met alle nieuwe ontwikkelingen in generatieve AI die het onvoorstelbare werkelijkheid maken, is het moeilijk om bij te blijven. Terwijl we net een beetje wennen aan de mogelijkheden op het gebied van het genereren van tekst en beeld, dient zich alweer een nieuw fenomeen aan: AI-gestuurde stemtechnologie. Die opent de deur naar tal van nieuwe mogelijkheden voor contentproductie. Tegelijkertijd roept het ook veel vragen op over de technologie, inzetbaarheid en ethische aspecten.

De afgelopen tien jaar zijn we getuige geweest van enorme vooruitgang in AI-gestuurde audiotechnologie, waaronder muziek- en spraaksynthese. Tot voor kort waren die verbeteringen echter nog ver verwijderd van de enorme sprong die is gemaakt bij het genereren van tekst en beeld, zoals bij ChatGPT en Midjourney.

Taalmodellen

Dat is nu snel aan het veranderen. Door verschillende basisideeën van grote taalmodellen (LLM’s) en tekst-naar-beeld generatie toe te passen op audio, bereiken de nieuwste audio-generatieve systemen ongehoorde kwaliteit. Die kunnen nu ook menselijke stemmen nabootsen met verbazingwekkende precisie. Die vooruitgang is vooral te danken aan de verbeterde deep learning-technologie en de toegenomen beschikbaarheid van grote datasets.

Een van de belangrijkste ontwikkelingen op het gebied van AI-stemgeneratie is het gebruik van deep learning-technologie. Met name Deep Neural Networks (DNN’s) hebben de kwaliteit van gesynthetiseerde stemmen enorm verbeterd. Deze modellen worden getraind op enorme hoeveelheden data, waaronder opnames van menselijke stemmen, om de nuances van natuurlijke spraak te leren. Hierdoor kunnen AI-stemgeneratoren nu stemmen produceren met een breed scala aan emoties, accenten en intonaties.

Ritme, klemtoon en intonatie

Een andere belangrijke ontwikkeling in het genereren van AI-stemmen is de integratie van prosodie, dat verwijst naar het ritme, de klemtoon en de intonatie van spraak. Door taalkenmerken en context te analyseren, kunnen AI-stemgeneratoren nu expressievere en natuurlijker klinkende stemmen produceren.

Het klonen van stemmen, het trainen van een AI-model om de stem en spraakpatronen van een individu na te bootsen, is nu dan ook enorm geavanceerd. Uit een recent onderzoek blijkt dat mensen maar in 73% van de gevallen konden herkennen of een geselecteerde stem door AI was gegenereerd. Dankzij techbedrijven als ElevenLabs en Speechify wordt de technologie voor het kopiëren van stemmen bovendien steeds betaalbaarder en toegankelijker.

Vooruitzichten stemtechnologie

De vooruitzichten voor deze technologie zijn dan ook meer dan goed. De verwachting is dat de markt voor ‘AI voice generators’ de komende 10 jaar zal verviervoudigen. Van zo’n 1,4 miljard dollar dit jaar tot bijna 4,9 miljard in 2032 (zie afbeelding hieronder)

Maar de stem heeft niet alleen de wind in de rug als het gaat om het gebruik van AI voor het genereren van spraak. Gesproken woord wint aan populariteit, denk alleen maar aan podcasts. Het aantal luisteraars van podcasts in Nederland ligt ondertussen al bijna op 50%. In de VS heeft de luistertijd en het publieksbereik van gesproken woord recordhoogten bereikt. Bijna de helft (48%) van de ongeveer 135 miljoen Amerikanen van 13 jaar en ouder luistert dagelijks naar een vorm van gesproken woord.

Geschenk uit de hemel

De vooruitgang in het genereren van spraak en het namaken van stemmen, is een geschenk uit de hemel voor sommigen. Mensen met een slopende ziekte, zoals ALS, kunnen hun stem met behulp van AI klonen. Dankzij die technologie kon acteur Val Kilmer, die zijn stem kwijtraakte na een operatie voor keelkanker, zijn rol inspreken voor de film Top Gun: Maverick. Er is ook hoop voor mensen die na een beroerte niet meer kunnen praten. Zij kunnen met AI hun stem weer terugkrijgen (zie video hieronder).

Ook voor de mediasector is de opkomst van AI-gestuurde, levensechte stemmen een spannende ontwikkeling. Voor mediabedrijven biedt AI-stemgeneratie flink wat voordelen. Ten eerste stelt het hen in staat om inhoud sneller en efficiënter te produceren. Door AI-gestuurde stemmen te gebruiken, kunnen mediabedrijven snel audio-inhoud genereren zonder afhankelijk te zijn van menselijke stemacteurs. Dit is vooral handig voor het produceren van grote hoeveelheden content, zoals nieuwsupdates, audioboeken of gesproken versies van artikelen.

Personaliseren

Een ander voordeel is de mogelijkheid om content te personaliseren. Met AI-stemtechnologie kunnen mediabedrijven content aanpassen aan de voorkeuren van individuele luisteraars. Bijvoorbeeld, het aanbieden van dezelfde nieuwscontent, maar dan gesproken in verschillende talen of dialecten, zonder de noodzaak voor meerdere opnamesessies.

De technologie heeft uiteraard ook potentieel voor reclame en marketing. Met AI-gestuurde stemmen kunnen merken advertenties maken die specifiek zijn afgestemd op een bepaalde doelgroep. In de video hieronder een kijkje achter de schermen bij het bedrijf WellSaid dat stemmen maakt voor merken.

Tot slot biedt AI-stemtechnologie ook mogelijkheden voor betere toegankelijkheid. Het kan bijvoorbeeld worden gebruikt om content toegankelijker te maken voor mensen met visuele beperkingen, door tekst-naar-spraak conversie te bieden voor geschreven content.

Ethische uitdagingen stemtechnologie

De vooruitgang in AI-gestuurde stemtechnologie belooft de manier waarop mediabedrijven inhoud creëren, distribueren en personaliseren flink te veranderen. Dit biedt zowel spannende creatieve mogelijkheden als praktische voordelen voor efficiëntie en toegankelijkheid. Tegelijkertijd zijn er ook flinke ethische uitdagingen.

Een van de grootste bezwaren tegen door AI gegenereerde stemmen is de vrees voor misbruik, zoals identiteitsdiefstal en fraude. Het wordt mogelijk om stemmen van publieke figuren of zelfs gewone mensen na te bootsen. Dit roept vragen op over authenticiteit en vertrouwen, vooral in een tijdperk waarin deepfaketechnologie steeds geavanceerder wordt.

Misdadige praktijken

AI-stemtechnologie heeft al geleid tot allerlei misdadige praktijken. Gekloonde stemmen zijn al gebruikt om een bankoverval uit te voeren. Criminelen lichten mensen op door aan de telefoon met software de stem van een familielid van het slachtoffer na te bootsen. Deze vorm van fraude  komt nu zo vaak voor dat de Amerikaanse telecomtoezichthouder Federal Trade Commission (FTC) ervoor waarschuwt.

Ook zijn er inmiddels talloze start-ups die het internet afstruinen op zoek naar spraakvoorbeelden van hoge kwaliteit. Ze bundelen honderden stemmen en verkopen ze voor spotprijzen aan bedrijven voor reclamespots, trainingen, demo’s van videospelletjes en audioboeken.

Werkgelegenheid

Een ander belangrijk vraagstuk is de impact op de werkgelegenheid. De vervanging van menselijke stemacteurs en sprekers door AI kan leiden tot baanverlies in deze sectoren. Plannen van nieuwskiosk Blendle en audioboekbedrijf Storytel op dit gebied, hebben al geleid tot flinke onrust bij stemacteurs. Hoewel AI-stemmen efficiëntie en kostenbesparing bieden, moeten de gevolgen voor degenen wiens banen mogelijk worden overbodig gemaakt niet worden onderschat.

De AI-stemmen van Storytel

Privacy is ook een grote zorg. Om AI-stemmen te genereren, moeten systemen worden getraind met grote datasets van menselijke spraak. Dit roept vragen op over hoe deze gegevens worden verzameld, opgeslagen en gebruikt, en of de rechten en wensen van degenen wiens stemmen zijn opgenomen, worden gerespecteerd.

Wilde westen

Het heeft er veel van weg dat we ons momenteel het ‘wilde westen’ bevinden van AI. Regelgeving en juridische definities lopen hopeloos achter op de snelle vooruitgang van de technologie. Wetgevers hebben nog geen duidelijke wettelijke grenzen gesteld aan het gebruik van andermans stem. AI-bedrijven aan de andere kant hebben geen verificatieprocessen om er zeker van te zijn dat gebruikers het recht hebben om een stem te gebruiken voordat ze deze klonen.

Gezien deze uitdagingen is het cruciaal dat mediabedrijven voorzichtig te werk gaan bij het inzetten van AI-gestuurde stemtechnologie. Alleen door een evenwicht te vinden tussen innovatie en ethische overwegingen, kunnen we ervoor zorgen dat door AI gegenereerde stemmen worden gebruikt op een manier die zowel voordelen biedt als verantwoord is.

Media Perspectives en Beeld en Geluid organiseren op 21 november een Cross Media Café over AI-stemtechnologie onder de titel ‘De stem van AI’. Inschrijven voor dat event kan via deze link.