Zo is deepfake niet eng: maak efficiënt een meertalige training

Op je bed in een hotelkamer in het buitenland, tijdens een doelloos rondje zappen, kom je ze nog wel tegen. Een slecht nagesynchroniseerde Brad Pitt die iets in het Duits roept. Of Chandler en Monica die kibbelen in het Spaans. De woorden kloppen niet met hun monden,  en voor mensen die gewend zijn aan ondertiteling is het alleen maar vreselijk storend. Het is de beste poging om de beelden begrijpelijk te maken voor iedereen, maar dat het niet optimaal is zie je zo.

deepfake-videos-636_424

Dit probleem kwamen we ook tegen in de ontwikkeling van een training voor een grote internationale partij. Dit bedrijf vroeg ons een salestraining te ontwikkelen voor hun consultants in medische apparatuur. Deze mensen werken door heel Europa en voeren op hun eigen lokale markt salesgesprekken. Om die gesprekken te verbeteren wilden ze graag gebruik maken van videorollenspellen in TrainTool. Medewerkers kunnen dan op afstand de training volgen, op een moment dat het hen uitkomt en op hun eigen apparaat. Door de gestandaardiseerde nul- en eindmeting is de voortgang van alle deelnemers centraal in kaart te brengen. 

Vijf talen

Maar eerlijk is eerlijk, de productiekosten van onze maatwerk videorollenspellen kunnen in zo’n scenario wel oplopen. Dit bedrijf had video’s in vijf talen nodig: Engels, Duits, Frans, Italiaans en Spaans. Trainingsvideo’s opnemen in al die talen was geen optie, veel te kostbaar met al die acteurs, draaidagen en regisseren in vreemde talen. Er moest dus een creatieve oplossing komen. Eenvoudig nasynchroniseren was geen optie vanwege de gebrekkige kwaliteit. Ondertitelen ook niet, omdat de aandacht dan meer naar het lezen van de ondertitels gaat dan naar de trainingssituatie. We vonden de oplossing in technologie: deepfake video’s. 

Deepfake

Bij de term deepfake gaan bij sommige mensen de haren al overeind staan. Er zijn inderdaad griezelig echte voorbeelden bekend waarbij het lijkt alsof een bekende ster of politicus iets zegt wat hij of zij nooit gezegd heeft. Door geavanceerde techniek, gebruik makend van artificial intelligence, worden beeld en geluid zo op elkaar afgestemd dat je de persoon op de video bijna alles kunt laten zeggen. Met die techniek kun je grappige (en ja, ook akelige) video’s maken, maar het bleek ook bij uitstek geschikt voor onze kwestie. 

Eén keer opgenomen

Door gebruik te maken van deepfake video's kon worden volstaan met één opname, in het Engels in dit geval. In totaal waren er vier acteurs en actrices die allerlei situaties speelden. Hun teksten zijn vervolgens vertaald in de vier andere talen en ingesproken, alleen het geluid dus, door native speakers. Vervolgens werden met de deepfake-techniek de mimiek en de mondbewegingen van de acteur in beeld precies gelijk gelegd met het geluid van de geluidsopname in de vreemde taal. Zo is de hele training vertaald in al die talen. 

Bekijk een voorbeeld:

translation-deepfakes

Focus op de training

Het is voor het eerst dat we deze techniek inzetten voor onze video’s en de resultaten zijn bemoedigend. Het is gaaf om te zien hoe de acteurs ineens in allerlei talen kunnen spreken. We zijn de techniek nog verder aan het ontwikkelen en hebben geleerd dat we er bij de opnames van de video’s al rekening mee kunnen houden. Het helpt bijvoorbeeld als acteurs niet al te veel bewegen met hun lichaam. Deelnemers gaan binnenkort starten. Wellicht zullen ze zien dat er íets anders is, maar als het goed is, ligt de focus vooral op de training. Uiteraard houden we de invloed op het leereffect in de gaten. 

Samenwerking

In dit project werkten we samen met het Britse bedrijf Synthesia, dat al langer werkt aan verschillende toepassingen van deepfake-video's. Steffen Tjerrild, mede-oprichter van Synthesia over de samenwerking:

"Synthesia is excited to work with technology first e-learning companies like Faculty of Skills to bring a new learning experience to market. Synthesia is pioneering a new way to natively translate video utilising the latest advances in AI. It is a very similar process to how Hollywood create digital humans, however instead of traditionally requiring multiple visual effects artists and $100,000 budgets Synthesia has taught neural networks to reproduce the same results. This is done by creating a photorealist representation of the target actor, this allows us to synchronise the lip-movements to a different language. Early results show that AI-enhanced dubbing can increase the viewer engagement up to 20x over normal subtitles." 

Bekijk nog een voorbeeld van de toepassing van de techniek in een video waarin David Beckham ineens wel heel veel talen spreekt. 

Abonneer je hier!

Recente berichten