Kunstmatige intelligentie kan objecten identificeren aan de hand van verbale beschrijving

kunstmatige intelligentie

Wetenschappers van MIT hebben een kunstmatige intelligentie ontwikkeld die objecten kan identificeren in een plaatje, aan de hand van een gesproken beschrijving van het plaatje. Dat meldt MIT op zijn website. Het model highlight na de beschrijving in real-time de relevante gebieden van het plaatje dat beschreven wordt.

Het model heeft geen handmatige transcripties en annotaties nodig van de voorbeelden waar het op getraind is. Dit is wel het geval bij veel huidige systemen. Aan de hand van transcripties van duizenden uren aan spraakopnames leert het spraaksignalen te combineren met specifieke woorden.

In plaats daarvan leert het woorden direct via opgenomen spraakopnames en objecten als RAW-beelden. Het model kan ze vervolgens aan elkaar koppelen. “We wilden spraakherkenning maken op een meer natuurlijke manier”, aldus David Harwath, een onderzoeker in het Computer Science and Artificial Intelligence Laboratory (CSAIL) en de Spoken Language Systems Group.

“We kregen het idee om een model te trainen op een vergelijkbare manier als dat je een kind door de wereld heen leidt en vertelt wat je ziet.”

Toepassingen

Op dit moment herkent het model een paar honderd verschillende woorden en object-types. De onderzoekers hopen echter dat hun techniek in de toekomst talloze uren aan werk kan besparen. Ook hopen ze dat het nieuwe mogelijkheden gaat bieden voor spraak- en beeldherkenning.

Een van de toepassingen waar het model mogelijk interessant voor is, is het leren van vertalingen tussen verschillende talen. Van de ruim 7.000 gesproken talen wereldwijd hebben slechts 100 genoeg transcriptiedata voor spraakherkenning. Maar stel je voor dat twee mensen die verschillende talen spreken hetzelfde plaatje beschrijven.

Het model leert dat spraaksignalen uit een eerste taal bij bepaalde objecten in een plaatje horen, en leert dat de signalen in de tweede taal corresponderen met diezelfde objecten. Daarbij kan het systeem er vanuit gaan dat die signalen en de bijbehorende woorden vertalingen van elkaar zijn.