Geen enkele andere bedrijfstak in Nederland genereert zoveel data als de media-industrie. Niet offline media, maar online media welteverstaan. Het typen van deze column, klikken op een website, social media en ook het spelen van games. Het aantal datapunten en de verbintenissen in een web van bekenden en onbekenden is eindeloos. En het gaat niet alleen om de clicks, maar ook om de omgang met media. Hoe ver scrollt een lezer door? Wat is de reactiesnelheid in een serious game voor valpreventie? Bij XR wordt de hele omgeving in realtime aangepast aan de beweging, en is het onderscheid tussen actie en reactie verdwenen.
AI leeft van data. Ondanks dat wij als mensen heel veel data creëren, is er relatief weinig bruikbare data aanwezig voor onderzoek en innovatie met AI. Want alleen met voldoende (door de mens) goed gelabelde data is het mogelijk een AI-model te trainen. Die kan vervolgens bepalen in welke categorie de nieuwe informatie thuishoort. De gelabelde data is er gewoonweg niet. Niet opgeslagen, de potentie niet herkend of vanuit data-deel-angst intern gehouden. Samen met mensen en middelen is data een onmisbare bouwsteen voor elke ontwikkeling die je op AI gebied wilt doen. Zonder geschikte data geen vooruitgang.
In het Fieldlab Deep Level Video Analysis van Media Perspectives was besloten aan de slag te gaan met geweldsdetectie. Hoe dat te doen? Allereerst in gesprek gegaan met mensen achter de kijkwijzer. Hoe beoordelen ze geweld in films en programma’s? Daar werden we weinig wijzer van, want de beoordelingswijzen waren hun intellectueel eigendom en werden niet geopenbaard. De volgende stap was om een ‘dataset’ te krijgen van geweld in films, zodat er een AI-model getraind kon worden om geweldscenes te detecteren. Zo gezegd zo gevonden.
In een middag samenwerking tussen NPO, RTL, Beeld en Geluid en Ster is een geweldsdetector gemaakt waarmee per drie seconden een geweldsscore tussen 0 en 1 werd toegekend. Maar meer voorbeelden waren nodig, want dans werd ook als geweld herkend. Deze voorbeelden waren echter niet beschikbaar. Om dit op te lossen is er begin maart een annotatieproject gestart, waarin mensen met een afstand tot de arbeidsmarkt content annoteren (= labelen). En deze gelabelde data dienen als input voor AI projecten bij verschillende mediabedrijven.
Voor een hackathon over pluriforme recommendations (ook georganiseerd door Media Perspectives) was een dataset nodig van content, en hoe die content op een online platform was bekeken. Deze dataset werd gecombineerd met de ondertitels van de programma’s, en de video’s zelf. Zo hadden de teams alle middelen om pluriforme recommendations te realiseren. De contracten werden getekend, de data werd geanonimiseerd, de privacy officer gaf zijn zegen. En het werd een hele succesvolle hackathon.
Zo succesvol dat een universiteit de dataset ook wilde gebruiken voor onderzoek. Die staat op een USB-stick, dat is het probleem niet. Maar wel dat nu het contract niet rondkomt. De juridische afdeling begrijpt niet hoe het delen van een dataset met een universiteit past in de missie van de organisatie. En zo zijn we intussen alweer maanden verder. Studenten hadden al inzichten kunnen ontwikkelen waarmee de media-industrie zijn voordeel mee had kunnen doen. Maar het is wachten op goedkeuring.
De beschikbaarheid van data, en vooral van gelabelde data is een cruciaal punt. Labcondities met fictieve data zijn hier niet voldoende om te ontwikkelen en onderzoek te doen. Er moet veel data zijn. Die data moet van voldoende kwaliteit zijn, en neutraal genoeg. In de medische wereld is het al lang gebruikelijk om data te delen voor onderzoek en ontwikkeling. Voor de media-industrie is dit iets nieuws. Concurrentiële angst, past het wel in onze missie, komt hiermee geen persoonsdata op straat te liggen? Al deze reserveringen staan het geanonimiseerd delen van mediadata voor AI ontwikkelingen in de weg. Hoog tijd om een industrie-aanpak op te zetten, zodat we gebruik kunnen maken van de enorme hoeveelheid data die de media-industrie genereert!