Mirakeloplossing

Enige tijd geleden schreef Ton den Boon dat de Dikke Van Dale niet alleen nieuwe woorden registreert, maar ook laat zien hoe ze worden gebruikt, welke verbintenissen ze met andere woorden aangaan. Dankzij de digitalisering van de media beschikt de redactie over gigantische hoeveelheden taalmateriaal waarin ze naar die verbintenissen op zoek kan gaan.

Maar hoe doe je dat efficiënt? Het aantal verbintenissen dat Nederlandse woorden met elkaar kunnen aangaan, is zo goed als oneindig. Je moet daarom niet in het wilde weg naar mogelijke combinaties op zoek gaan, maar gericht relevante verbindingen zoeken.

We hebben een proefje gedaan met een aantal ongelede woorden, dus geen samenstellingen of afleidingen. De vraag was: welke andere woorden komen het vaakst in hun buurt voor? Zo hebben we kunnen achterhalen – en dat is best wel opmerkelijk – dat veelvoorkomende combinaties als onraad ruiken, piepende remmen, ronkende gitaren en een raam zemen nog niet in de Dikke Van Dale stonden.

Dezelfde methode levert ook grammaticale informatie op. Je ziet onmiddellijk welke voorzetsels bij een werkwoord voorkomen (niet alleen reppen van, maar ook over). En als je één bepaald voorzetsel vaak in de buurt van een ander woord aantreft, is het misschien wel een vast voorzetsel. Denk maar aan een combinatie als schuld aan iets hebben.

Er duikt natuurlijk ruis op. Veel ruis, zelfs. In de buurt van een zelfstandig naamwoord staat uiteraard vaak een lidwoord, maar je kunt de computer ook leren dat hij dat mag negeren. En ‘in de buurt’ moeten we preciezer bepalen. Zijn dat twee, drie of misschien nog meer woorden aan weerszijden van het kernwoord?

De zoekmethode die we hebben getest, levert dus wel wat op, maar ze is geen mirakeloplossing. En dat typisch Belgisch-Nederlandse woord hebben we dan weer wél tijdens ons proefje gevonden en meteen opgenomen in de Dikke. In Vlaamse teksten liggen mirakel en oplossing kennelijk nooit ver uit elkaars buurt.