Nieuw algoritme zoekt en herkent activiteiten in videobeelden

Een nieuw algoritme uit het lab van MIT is in staat om menselijke bewegingen of zelfs activiteiten te herkennen in video’s en te beschrijven wat er gebeurt. De makers zien grote kansen voor hun uitvinding, voornamelijk op medisch vlak. Maar een toekomst in de beveiliging lijkt ook niet onmogelijk.

MIT-student Hamed Pirsiavash ontwikkelde het algoritme in samenwerking met adviseur Deva Remanan. Voor zijn nieuwe vinding keek Pirsiavash veel af van natural language processing (NLP) technieken. Uiteindelijk kan het algoritme nu zoeken binnen video’s naar bepaalde activiteiten en deze in beperkte mate herkennen. Zo herkent het systeem nu het zetten van thee, het spelen van tennis en gewichtheffen. Misschien nog wel het meest spectaculaire aan het algoritme is het feit dat het kan ‘voorspellen’ en dus ingezet kan worden op streaming video.

Pirsiavash maakte gebruik van NLP op video door een beweging op te breken in onderdelen als ware het een gesproken zin. Feitelijk ontwikkelde de onderzoekers een ’taal’ voor onze activiteiten.

“One of the challenging problems they try to solve is, if you have a sentence, you want to basically parse the sentence, saying what is the subject, what is the verb, what is the adverb. We see an analogy here, which is, if you have a complex action — like making tea or making coffee — that has some subactions, we can basically stitch together these subactions and look at each one as something like verb, adjective, and adverb.”

De werking van het systeem is duizelingwekkend: terwijl een video afspeelt, gaat het algoritme aan de slag met een aantal hypotheses rondom hetgene wat hij ‘ziet’. Naarmate de video vordert, elimineert het systeem de stellingen op basis van zijn ‘grammaticale regels’ om vervolgens tot een conclusie te komen.

Het algoritme is getest met 8 verschillene sporten, waaronder gewichtheffen, bowlen, duiken, tennis, speerwerpen en verspringen. In het geval van speerwerpen wist het algoritme de acties keurig terug te brengen tot ‘rennen’, ‘loslaten’ en ‘werpen’, waarna het tot de conclusie kwam dat dit speerwerpen moet zijn.

Piriavesh zelf ziet een zonnige toekomst voor zijn algoritme in de zorg, bijvoorbeeld in de fysiotherapie. Op basis van streaming video kan zijn systeem gaan coachen of een patiënt zijn oefeningen goed uitvoert of dat er iets verkeerd gaat.

Maar een toepassing in de beveiliging lijkt ook geen gekke toepassing natuurlijk. Wat te denken van een aanpassing op het algoritme zodat het een vechtpartij, overval of inbraak herkent, toegepast op de vele CCTV camera’s in bijvoorbeeld het Verenigd Koninkrijk?