De razendsnelle evolutie van machinevertalingen
- Jetske Dijkstra
Ooit begon het als een droom: een computer die moeiteloos zinnen vertaalt van de ene taal naar de andere, zonder grammaticale missers of kromme zinnen. Vandaag zijn we dichter bij die droom dan ooit, mede dankzij de spectaculaire ontwikkeling van zogeheten large language models (LLM’s). Maar hoe zijn we hier eigenlijk gekomen?
De vroege dagen: woord-voor-woord en veel frustratie
De eerste pogingen tot automatische vertaling stammen uit de jaren ’50, tijdens de Koude Oorlog. Amerikanen wilden Sovjet-Russisch snel kunnen begrijpen en probeerden met computerkracht teksten om te zetten naar het Engels. Het idee was simpel: elk Russisch woord werd vervangen door een Engels woord volgens een woordenlijst.
In de praktijk leverde dat hilarische, maar zelden bruikbare vertalingen op. Zinsstructuur, context, dubbele betekenissen – allemaal zaken waar die vroege systemen geen rekening mee hielden. Een klassiek voorbeeld is de vertaling van “The spirit is willing but the flesh is weak” naar het Russisch en weer terug naar het Engels, wat resulteerde in: “The vodka is strong but the meat is rotten.”
Regels, regels, regels
In de decennia daarna werden systemen complexer. In plaats van simpel woord-voor-woord-vertalen probeerden ontwikkelaars grammaticale regels in te bouwen. Deze rule-based systemen konden zinnen enigszins correct structureren, maar vereisten gigantische hoeveelheden handmatig ingevoerde taalkennis.
Bovendien: taal is rommelig. Er zijn altijd uitzonderingen, nuances, culturele contexten en idiomen die lastig te vatten zijn in regels. Daardoor bleven de resultaten vaak houterig en onnatuurlijk.
De doorbraak: statistische modellen
In de jaren 90 kwam de volgende grote stap: statistical machine translation (SMT). Deze systemen leerden van grote hoeveelheden tweetalige tekst, bijvoorbeeld ondertitelingen of Europese wetsdocumenten, hoe bepaalde zinnen meestal worden vertaald.
Dit werkte al een stuk beter. SMT keek niet meer alleen naar losse woorden, maar ook naar patronen en waarschijnlijkheden. Toch waren er ook nadelen: de vertalingen klonken vaak nog onnatuurlijk, vooral bij langere of complexere zinnen.
Neurale netwerken nemen het over
Rond 2015 kwam de grote sprong: neural machine translation (NMT). In plaats van losse statistiekjes te gebruiken, leerden neurale netwerken om zinnen als geheel te begrijpen én te vertalen.
Deze systemen leverden al veel vloeiendere resultaten op. Ze konden rekening houden met context, zinsopbouw en stijl. Diensten zoals Google Translate verbeterden zichtbaar, en het vertrouwen in automatische vertalingen begon te groeien.
En toen kwamen de LLM’s
De nieuwste stap is de integratie van large language models zoals GPT. Deze modellen zijn niet specifiek getraind om te vertalen, maar kunnen het verrassend goed, en vaak beter dan gespecialiseerde systemen.
Waarom? Omdat LLM’s zijn getraind op miljarden teksten in honderden talen. Ze begrijpen taal op een diep niveau, inclusief cultuur, toon, stijl en context. Daardoor kunnen ze nuances beter aanvoelen en zinnen natuurlijker formuleren.
Vertaal je bijvoorbeeld een informele blogpost of een poëtische songtekst? Een LLM zal eerder doorhebben wat de juiste toon is dan een ouderwets vertaalsysteem.
Wat betekent dit voor de toekomst?
Zijn menselijke vertalers dan overbodig? Zeker niet. Voor juridische documenten, literaire vertalingen of contextgevoelige marketingteksten blijft menselijke finesse onmisbaar.
Maar voor alledaags gebruik: e-mails, ondertitels, gebruikershandleidingen, zijn machinevertalingen nu al indrukwekkend goed. En ze worden elke dag beter.
Dus de volgende keer dat je met één klik een hele webpagina vertaalt, weet je: daar zit decennia aan innovatie achter.