Wie regelmatig via op YouTube uploadt heeft heel misschien wel gemerkt dat de videodienst sinds kort betere thumbnails lijkt te selecteren video’s die je uploadt. Nu lijkt dat niet alleen zo, het is zo. Want voor de automatische selectie van een thumbnail wordt sinds kort gebruik gemaakt van deep learning. Via neurale netwerken leert YouTube herkennen welke thumbnail het beste is.
Hoe werkt dat in het kort? Van elke video die wordt geupload pakt YouTube een still van elke seconde van de video. Deze gaan door het kwaliteitsmodel heen dat aan de hand van computer vision-algoritmes aan elke still een kwaliteitsscore meegeeft. Van diegene met de hoogste scores worden vervolgens de verschillende thumbnails gegenereerd.
Het kwaliteitsmodel, dat dus gebruik maakt van neurale netwerken, is na de ontwikkeling getraind om te herkennen wat goede en slechte modellen zijn. Hiervoor is gebruik gemaakt van thumbnails die makers handmatig hebben geupload (en daarom zijn gebruikt als goede voorbeelden) en die zijn tegenover compleet willekeurige stills uit video gezet (de slechte voorbeelden).
Voor Google is het gebruiken van datasets uit hun eigen producten om neurale netwerken te trainen inmiddels vrij gebruikelijk. De techniek in Google Photos die herkent wat er op een foto staat is op eenzelfde manier getraind.
In een speciale blogpost gaan de ontwikkelaars van de technologie nog wat dieper in op hoe het werkt en laten ze nog meer voorbeelden zien.