Innovatie op het Media Park: RTL

Sanne Eggengoor (RTL): “Ons project voor geautomatiseerde ondertiteling is al zoveel verder dan ik ooit had kunnen voorspellen.”

Ruim anderhalf jaar geleden begon Sanne Eggengoor bij RTL als data-scientist. Met een team van acht collega’s werkt zij aan verschillende projecten op het gebied van Artificial Intelligence. Vooral het project ‘automatisch ondertitelen’ wekte direct haar enthousiasme. Met name omdat dit een actueel vraagstuk is binnen de branche en er vanuit verschillende hoeken met veel interesse wordt meegekeken. “We merken die drang naar innovatie op dit gebied, dat is een enorme stimulans voor ons team.” Inmiddels wordt geautomatiseerde ondertiteling bij RTL en Videoland al volop ingezet.

Sanne, hoe begin je aan zo’n project?

“Er zijn tegenwoordig steeds meer streamingdiensten en die hebben allemaal ondertiteling nodig. De vraag is alleen maar aan het toenemen en daar wilden wij op inspelen. Uitgangspunt hierbij was dat we hogere kwaliteit wilden leveren dan wat er op YouTube te zien was. Daar zie je telkens een woordje bijkomen en een woordje afgaan met een enorme foutmarge. Door onze manier wordt nu eerst de taal herkend, vervolgens wordt de goede tekst inclusief de juiste leestekens gemaakt waarna het als geheel in hapklare blokjes in beeld komt. Zo blijf je zo dicht mogelijk bij de originele, door mensen bediende ondertiteling. We hebben de verschillende stappen allemaal afzonderlijk moeten nemen om deze uiteindelijk aan elkaar te kunnen koppelen. Hierbij hebben we gebruik gemaakt van het op dat moment nieuwste AI-model, maar die is inmiddels alweer verouderd. Voor dit soort projecten moet je dus telkens blijven meegaan met de ontwikkelingen van AI.”

Het gedeelte ‘taalherkenning’ lag in jouw handen, hoe heb je dat aangepakt? 

“Ik begon met het lezen van wetenschappelijke onderzoeken. Ik zocht uit welk model ik het beste kon gebruiken voor de taalherkenning. Vervolgens is het steeds proberen en aanpassen. Bij het genereren van ondertiteling moet je eerst het beeld omzetten in geluid en het geluid uiteindelijk omzetten naar tekst. Dat doe je door het implementeren van codes in een model. Daar ben ik enkele maanden mee bezig geweest. Juist die verrassingen die je telkens tegenkomt maakt het ontzettend interessant om hieraan te werken. ”

Waar zitten de uitdagingen op dit moment? 

“In taalherkenning gaat er nog wel eens wat mis. Soms herkent de computer het verschil tussen Welsh en Engels niet. Ook namen zijn soms nog moeilijk. Iets wat wij als mensen lastig vinden is voor computers ook ingewikkeld. Schrijf je Thom met of zonder H? Is het Luuk, Luke of Luck? Als mensen door elkaar praten is het voor de computer ook niet meer te volgen. De vuistregel is: als iets voor jou en mij lastig is, dan is het voor de computer ook een uitdaging.”

Het lijkt dus een kwestie van tijd voordat geautomatiseerde ondertiteling de standaard gaat worden?

“Op dit moment zijn op Videoland de GTST Classics te zien met volledig geautomatiseerde ondertiteling. Op het eerste gezicht merk je geen verschil met normale ondertiteling, dat is natuurlijk super. Voorlopig willen we het werk van de ondertitelaar in ieder geval makkelijker en efficiënter maken. Dat lukt nu al heel goed. We zijn al zoveel verder dan ik ooit had kunnen voorspellen.”