Disney laat je horen welke geluiden objecten op foto’s maken

Kunstmatige intelligentie zorgt er inmiddels voor dat computers allerlei objecten op foto’s kunnen herkennen. Handig, maar vraag welk geluid die olifant op de foto maakt en de computer snapt er weinig meer van. Als het aan Disney Research ligt, is dat binnenkort voorbij. Zij maken namelijk een systeem dat niet alleen herkent wat een afbeelding is, maar ook hoe deze klinkt, schrijven ze in een blogpost.

De eerste onderzoeksresultaten zijn inmiddels gepresenteerd tijdens de European Conference on Computer Vision, en daar liet de groep onderzoekers succesvol zien hoe de computer audio met de juiste plaatjes combineerde. Een behoorlijke overwinning, want voor computers is dit niet zo eenvoudig aan te leren als bij mensen. Ze hebben immers geen oren en natuurlijk instinct.

De onderzoekers van Disney hebben hun algoritmes echter getraind om de geluiden bij plaatjes te herkennen, door het een collectie van video’s te voeren. In deze video’s kwam naar voren welk specifiek geluid een object maakt. Eenvoudig was het niet, want achtergrondgeluiden, stemmen of geluiden van andere objecten zorgen ervoor dat de computer in de war raakt. Inmiddels is het systeem echter zo ver dat het regelmatig de juiste geluiden suggereert bij een afbeelding. Af en toe heeft het nog wel problemen met het onderscheid tussen een auto en een tram, waardoor het soms een verkeerd geluid gaf.

Voor ons is dit systeem misschien niet heel handig, maar het team hoopt dat het uiteindelijk gebruikt kan worden bij een automatisch proces voor videoproductie. Editors kunnen dan gemakkelijker geluidseffecten toevoegen als ze een video produceren. Daarnaast kan de techniek gebruikt worden voor mensen met beperkt zicht, door ze afbeeldingen te laten horen op een computerscherm.

Op dit moment is het team echter nog niet zo ver, maar het vooruitzicht van deze toepassingen is mooi.