Doorbraak bij DeepMind: Computers praten voortaan veel menselijker

Als je een computer hoort praten, dan merk je vrij snel dat het een computer is en geen mens. Dat komt omdat een computer eigenlijk gewoon allemaal klanken achter elkaar zet. Daardoor kun je het prima verstaan, maar klinkt de spraak altijd wat mechanisch. DeepMind, een dochterbedrijf van Alphabet dat onderzoek doet naar kunstmatige intelligentie, claimt echter een doorbraak te hebben bereikt. Hierdoor moeten computers menselijker gaan klinken.

De onderzoekers hebben een systeem bedacht dat WaveNet heet. Door middel van machine learning analyseert dat systeem de geluidsgolven in onze spraak. Door patronen te herkennen kunnen deze vervolgens door computers (en dus bijvoorbeeld robots of spraakassistenten) worden gebruikt als ze tekst produceren.

Het systeem van DeepMind, met de naam WaveNet, werkt door de geluidsgolven van menselijke spraak te analyseren en daarin patronen te herkennen. Hij houdt daarbij rekening met volledige zinnen en tekstpatronen. Alles wat het systeem heeft geleerd door zijn analyses wordt vervolgens ingezet om geschreven teksten weer om te zetten tot geluid. In de praktijk zorgt dat er voor dat de stemmen veel minder monotoom (en dus natuurlijker) klinken.

Praktijk

De grote vraag is natuurlijk: hoe klinkt dat dan? Dat kun je beluisteren op de site van DeepMind. Daar staan voorbeeldzinnen die zijn uitgesproken door de ouderwetse text-t0-speech systemen, door de moderne systemen die onder meer Google tegenwoordig gebruikt en door WaveNet. En eerlijk is eerlijk: het is lastig om bij die laatste nog te herkennen dat deze tekst door een computer is gegenereerd.

Helaas moeten we niet verwachten dat deze technologie vanaf nu massaal wordt toegepast. Hij vereist namelijk ontzettend veel rekenkracht. En dat maakt het leuk onderzoekswerk, maar lastig om nu al op grote schaal in de praktijk toe te passen. Het is dus afwachten tot het systeem verder is geoptimaliseerd of de rekenkracht genoeg is toegenomen om WaveNet ook daadwerkelijk te gaan gebruiken.