AI van Microsoft genereert realistische spraak met weinig training

Nu kunstmatige intelligentie (AI) zich verder ontwikkeld, worden tekst-naar-spraak-algoritmes ook steeds beter. Maar het kan altijd beter, en er gaat nog veel werk zitten in het trainen van zo’n algoritme. Onderzoekers bij Microsoft proberen daar nu verandering in te brengen, met een AI-systeem dat zonder toezicht leert, meldt Venturebeat.

Het zogenaamde ‘unsupervised learning’ is een soort machine learning dat kennis haalt uit niet-gelabelde, niet-geclassificeerde en niet-gecategoriseerde testdata. Hiermee wist Microsoft een nauwkeurigheid van woordverstaanbaarheid van 99,84 procent mee te halen, evenals 11,7 PER voor automatische spraakherkenning.

Nog indrukwekkender is echter dat het algoritme slechts 200 audioclips en bijbehorende transcripten vereiste om dit te leren. Dat kon dankzij Transformers, een nieuw type neurale architectuur uit 2017, bedacht door wetenschappers van Google Brain.

Transformers

Transformers bevatten neuronen – wat wiskundige functies zijn die losjes gemodelleerd zijn naar biologische neuronen – die gesorteerd zijn in onderling verbonden lagen. Samen versturen zijn signalen vanuit input-data. De synaptische sterkte – het gewicht – van iedere verbinding wordt langzaam aangepast. Op die manier verzamelt het model functies en leert het om voorspellingen te maken.

Ieder output-element in een Transformer is bovendien verbonden met ieder input-element. Het gewicht tussen de twee wordt dynamisch berekend.

De wetenschappers van Microsoft hebben een Transformer-component toegevoegd aan hun AI-systeem, dat spraak of tekst als input of output kan gebruiken. De wetenschappers gebruikten verder de openbaar beschikbare LJSpeech dataset om het model te trainen. Het team koos 200 willekeurige clips.

Resultaten

De resultaten waren dus behoorlijk goed, zeker als je bedenkt dat er weinig trainingsdata was. Volgens de onderzoekers deed het algoritme het beter dan de drie baseline-algoritmes in de test. Diverse gegenereerde monsters klinken bovendien echt als mensen.