Afluisteren zonder geluid: Google’s DeepMind ontwikkelt computer die beter kan liplezen dan een professional

Onderzoekers van de Universiteit van Oxford en DeepMind, een zusterbedrijf van Google, hebben een software ontwikkeld die volgens hen beter kan liplezen dan een professional. De software daarvoor werd getraind door te kijken naar duizenden uren aan ondertiteld beeldmateriaal van pratende mensen op de BBC.

De onderzoekers lieten het model niet alleen naar beeld kijken, maar ook audio horen. De software kan ook met zowel beeld en audio tegelijk overweg.

Een professionele liplezer heeft in het onderzoek van de Universiteit van Oxford een foutmarge van 73,8 procent per woord. De meest uitgebreide vorm van de software had uiteindelijk een foutmarge van 53,2 procent. Daarbij wordt de software niet ondersteund door geluid, maar krijgt hij alleen beelden te zien.

Deepmind liplezen

Afluisteren

De onderzoekers suggereren een aantal taken die de slimme liplezer wellicht in de toekomst kan uitvoeren. Een apparaat dat werkt met stembediening zou bijvoorbeeld beter kunnen functioneren in een rumoerige omgeving. De software zou gebruikt kunnen worden om stomme films te transcriberen en ze vervolgens te nasynchroniseren. Bovendien zou het systeem ook kunnen bijdragen aan betere spraakherkenningssoftware.

De software kan ook gebruikt worden om mensen af te luisteren. Als de camera maar goed genoeg is, kan sterke software op grote afstand ‘horen’ wat mensen zeggen.