Het jaarthema van PRANO was ‘BIG DATA en het onderwijs‘. Ik hoop dat de aanwezigen er iets van opgestoken hebben, of dat het voor hen althans een aangenaam verpozen is geweest.
Buiten het onderwijs was 2016 in ieder geval een machtig mooi jaar voor ‘Big Data’. Er was een ‘Big Data’-feestje rond de Brexit en deze week dan nog een tweede vreugdevuur der ijdelheden rond de Amerikaanse presidentsverkiezingen. Dat opiniepeilingen er bij verkiezingen grandioos naast zitten is inmiddels heel oud nieuws. Het nieuwe nieuws is dat het voorspellen van uitslagen niet beter gaat nu we steeds meer data hebben, en die data ook onmiddellijk online kunnen zien en verwerken. ‘Big Data’ lijken niet effectiever dan ‘Small Data’.
Bij de Brexit zaten alle peilingen die voorafgaand aan het referendum waren gehouden, er naast. Alleen het peilingsmodel van de Universiteit van Sheffield kwam redelijk in de buurt maar toen dat met een echte, heus definitieve voorspelling kwam van de uitslag was er op 95% van de kiesbureaus al uitgeteld. Je hebt kennelijk bijna alle data nodig om te voorspellen wat de uitslag zal zijn als alle data binnen zijn.
Nog leuker waren deze week de Amerikaanse presidentsverkiezingen. Voor de Grote Dag was er geen enkele peiling die Trump als winnaar voorspelde. Maar dat is dus weer het oude nieuws. Op de verkiezingsdag (in Nederland – nacht) zelf hadden de commentatoren van CNN en andere zenders echter de beschikking over de echte data. En die data waren al heel snel heel erg BIG. Online werden de uitslagen van de kiesbureaus verwerkt door de rekenmodellen achter die prachtige grafische kaarten. Niet alleen per staat, maar per district werden de cijfers verzameld en aan de kijker doorgegeven. Hoeveel stemmen er al binnen waren (exact, geen afrondingen), hoeveel stemmen er naar welke kandidaat waren gegaan (exact, geen afrondingen), hoe de procentuele verhouding was tussen de kandidaten (nu wel met afrondingen), en onderin welk percentage van de stemmen al geteld was (afgerond op hele procenten).
De commentator van CNN klikte lustig over de grote virtuele wandkaart, zoomde in, zoomde uit, legde uit wat de kijker zag, gaf duiding, benadrukte dat het nu ging om echte stemmen niet om prognoses, benadrukte dat het natuurlijk niet garandeerde dat dit of dat de uitslag zou zijn, maar toch, maar toch. Hier, in Dade Florida, hier had mevrouw Clinton nog wel 100.000 stemmen ‘op de bank’. Want zie, de verhouding was daar 65% voor Clinton en iets van 32% voor Trump, en er was nog slechts 15% van de stemmen geteld…
De eerste uren bleef de commentator van CNN uitleggen dat mevrouw Clinton op allerlei banken in Florida en North Carolina en Pennsylvania nog hopen stemgeld had staan. Pas rond een uur of drie (Nederlandse tijd) kwam hij op het idee om na te gaan of Trump in Florida en andere ‘swing-states’ nog reserves had. Dat bleek zo te zijn. In sommige districten waarvan op voorhand vast stond dat daar 90% op Trump zou gaan stemmen, daar was nog niets geteld. Nu ja, dat waren natuurlijk ook maar kleine districten. Er woonden een paar honderd boeren, niet meer, en die waren misschien niet eens gaan stemmen.
Rond vijf uur begon het de commentatoren te dagen: ze hadden de kaarten en de cijfers verkeerd gelezen. In die districten waar maar een paar honderd boeren woonden, waren bijna alle boeren naar de stembus getrokken. Trump had daar veel meer stemmen ‘op de bank’ gehad dan ze hadden gedacht. In de ‘stedelijke’ gebieden met veel hoogopgeleiden daalde het percentage Clinton-aanhangers naarmate een groter deel van de stemmen geteld was. Clinton bleek daar veel minder stemmen ‘op de bank’ te hebben gehad dan ze in het begin van de avond gedacht hadden.
Voor dat laatste zijn twee verklaringen te bedenken:
1.
De percentages bij Clinton en Trump waren bij het begin gebaseerd op de telling van de stemmen die VOOR de verkiezingsdag, per post of anderszins, waren uitgebracht. Omdat Clinton-kiezers oververtegenwoordigd waren onder de ‘vroege’ stemmers gaf vertekende dat het percentage voor Clinton naar boven. Dat effect ebde echter langzaam weg naarmate er meer stemmen van de verkiezingsdag zelf waren geteld.
2.
Terwijl de percentages voor Clinton en Trump verschillen van district tot district, zijn er ook verschillen BINNEN elk district. Ook binnen een overwegend stedelijk district heb je een ‘landelijk’ gebied waar dan natuurlijk vooral Trump-keuters wonen. Maar de telmachines in de stedelijke gebieden van een stedelijk district werken vlotter dan die in het landelijke gebied van een stedelijk district, en – als Clinton vooral aanhangers heeft in de centra met grote zakenkantoren e.d. – een telmachine in een stedelijk gebied van een stedelijk district zal meer stemmen voor Clinton registreren dan stemmen voor Trump. Die snellere telmachines is overwegend Clinton-gestemde regio’s van stedelijke districten stuwden haar percentage opwaarts. Dat effect ebde echter langzaam weg naarmate er meer stemmen van de tragere telmachines mee waren genomen.
Door de avond heen is er achter de schermen bij de nieuwszenders en door de rekenaars van de politieke partijen driftig gewerkt om de cijfers die binnenstroomden voor allerlei factoren te corrigeren. Opleidingsniveau, percentage latino’s, langjarig opkomstpercentage enzovoorts. Maar als een van de twee verklaringen die hierboven genoemd zijn, klopt, dan was al dat driftig gedoe tevergeefs. Je kunt niet corrigeren voor factoren die verband houden met de samenstelling van de populaties maar niet voor verschillen in het tempo waarin data vanuit die populaties binnenstroomt. Het enige wat je kunt doen – en dat is hierboven gedaan – is een effect benoemen en aankondigen dat dat effect gaandeweg zal wegebben. Op welke punt de teller zal staan als het effect is weggeëbd daar heb je geen idee van. Het enige wat al in het begin van de avond zeker was, was dat het percentage voor Clinton in ‘haar’ districten gaandeweg zou dalen.
‘Big Data’, of het een hype is of een heuse revolutie, dat weet ik niet. Duidelijk is wel dat wie niet begrijpt hoe data geïnterpreteerd moeten worden, van steeds meer data niet veel wijzer van zal kunnen worden.