We zien steeds meer gebruik van kunstmatige intelligentie (AI). Ook in de media. AI biedt allerlei voordelen op het gebied van gemak, gebruikerservaring en efficiëntie. Maar hoe ziet het dagelijks leven met behulp van kunstmatige intelligentie eruit? En hoe kunnen we AI in de media gebruiken? Deze maand zetten we weer vijf opvallende toepassingen van AI op een rijtje.
De term ‘uncanny valley‘ wordt vaak gebruikt om AI te beschrijven die menselijk gedrag nabootst. Maar vaak voelt het toch niet helemaal echt. Het bedrijf NVIDIA heeft nu een kunstmatige stem ontwikkeld die de werkelijkheid wel heel erg dicht benadert. Door gebruik te maken van een combinatie van AI en een menselijke referentie-opname, klinkt de AI-stem bijna identiek aan die van een mens.
In een video hieronder beschrijft het creatieve team van Nvidia het proces om te komen tot een nauwkeurige spraaksynthese. Het team vergelijkt spraak met muziek, met complexe en genuanceerde ritmes, toonhoogtes en timbres die niet eenvoudig te reproduceren zijn. NVIDIA heeft nu tools ontwikkeld om deze fijne kneepjes met AI na te bootsen.
NVIDIA gebruikt twee methoden voor de ontwikkeling van de AI-stem. De eerste manier is om een tekst-naar-spraak model te trainen met door een mens ingesproken audiobestanden. Na voldoende training kan het model elke tekstinvoer verwerken en omzetten in spraak. De andere methode is spraakconversie. In dit geval gebruikt de software een audiobestand van een mens en zet die om in een AI-stem, waarbij het patroon en de intonatie worden aangepast.
Het bedrijf onthulde deze nieuwe ontwikkeling op het gebied van stemtechnologie tijdens Interspeech, een technische conferentie gewijd aan onderzoek naar spraaktechnologie. Nvidia’s spraaktools zijn beschikbaar via de open-source NeMo toolkit.
Het verbeteren van de resolutie van foto’s wordt vaak belachelijk gemaakt in films en op tv. Wat je daar ziet, is ook meestal volkomen ongeloofwaardig. Toch lijkt de technologie die nodig is voor het upscalen van echte foto’s op een steeds hoger niveau te komen. Neem nu de nieuwste AI-foto ‘upscaling’ technologie van Google.
In de post “High Fidelity Image Generation Using Diffusion Models” op het Google AI Blog, delen Google onderzoekers in het ‘Brain Team’ de nieuwe doorbraken op het gebied van beeld ‘super-resolutie’. Bij super-resolutie van afbeeldingen wordt een machine learning model getraind om een lage-resolutie foto om te zetten in een gedetailleerde hoge-resolutie foto.
Google gebruikt hiervoor een concept dat ‘diffusion models’ wordt genoemd. De resultaten met deze nieuwe aanpak zijn veel beter dan met bestaande technologieën. Google noemt de nieuwe benadering SR3, Super-Resolution via Repeated Refinement.
Er was een tijd dat een scherp oor, muzikale kennis en een grote muziekbibliotheek de noodzakelijke eigenschappen waren van een goede DJ. Tegenwoordig heb je alleen wat mixing software nodig, instinct, en wat creativiteit. Maar zelfs dat is niet meer nodig. Iedereen kan nu een behoorlijke set draaien, dankzij de wonderen van AI.
Het bedrijf Rave heeft daarvoor RaveDJ gelanceerd. Het is software dat AI gebruikt om een ‘mashup’ te maken van zo’n beetje alle songs die je maar kunt bedenken. Het resultaat is een soms pakkende setlist die het op menig feestje goed zal doen.
Op de site van RaveDJ kan je veel voorbeelden vinden van mashups die met behulp van AI zijn gemaakt. De resultaten zijn niet altijd oorstrelend, maar zeker de moeite waard om te beluisteren. Je kan op de site ook zelf experimenteren met de AI van RaveDJ.
4. Affectiva, de AI met gevoelens
Computers zijn slim. Ze slaan enorme hoeveelheden gegevens op en verwerken die in een oogwenk. Maar ze hebben dezelfde emotionele intelligentie als een betonnen muur. Computerwetenschapper Rana el Kaliouby wil daar met haar bedrijf Affectiva verandering in brengen. Ze wil met ‘Emotion AI’ computers leren hoe ze menselijke emoties kunnen herkennen en kwantificeren. AI heeft gezorgd voor een ‘empathiecrisis’ zegt Kaliouby. Haar missie is om die te vermenselijken.
Een gebied waar ‘Emotion AI’ volgens Kaliouby levensreddende toepassingen zou kunnen hebben, is de auto-industrie. Met monitoringsystemen die gebruikmaken van AI-aangedreven camera’s in auto’s kunnen afleiding en slaperigheid van de bestuurder worden gedetecteerd, waardoor ongelukken kunnen worden voorkomen. In mei van dit jaar werd Affectiva overgenomen door Smart Eye. Dat Zweedse bedrijf uit Gothenburg is marktleider in eye-tracking technologie voor bestuurdersmonitoring.
Een van de al lang bestaande beperkingen van grote AI-neurale netwerken is de tijd en energie die nodig is om enorme hoeveelheden data tussen de processor en het geheugen te versturen. Maar wat als de processor in het geheugen zou zitten? Dat is de oplossing die Samsung deze week presenteerde.
Eerder dit jaar ontwikkelde het bedrijf rekenkernen in zijn zogeheten HBM-geheugen (high-bandwidth memory). Deze week heeft Samsung de eerste tests gedaan van de een combinatie van HBM met processor-in-memory (PIM) technologie. Dat leverde in een neuraal netwerk voor spraakherkenning een prestatiewinst op van 250% en een meer dan 60% lager energieverbruik.
“Nieuwe en opkomende AI vereisen steeds meer geheugenbandbreedte naarmate de neurale netwerken groter en complexer worden,” zegt Nam Sung Kim van Samsung. “Het wordt steeds moeilijker en duurder om de bandbreedte te verhogen. De processor-in-memory technologie is daar een oplossing voor.”
Nieuwsgierig naar meer toepassingen van kunstmatige intelligentie? Bekijk hieronder de edities van eerder dit jaar: