Big-datamartelgang

Noem me een oude zeur, maar mensen, dat gehijg over Big Data, kan dat even een tandje minder? Begrijp me niet verkeerd, er is niets mis met de analyse van data. En dat je door handige verbanden te leggen de nodige efficiëntie kunt bereiken, geloof ik zo. Maar het walhalla dat door sommige mensen voorspeld wordt, gaat er echt niet komen.

Om de klassieke quote van econoom Ronald Coase aan te halen: “If you torture data long enough, it will confess”. Neem een willekeurige database en met de juiste, uhm…. ‘bewerking’ van die data kom je vanzelf wel op een verband uit, ook al berust het op louter toeval. Zo blijkt er een sterke samenhang te zijn tussen het aantal films waarin Nicholas Cage speelt en het aantal mensen dat in de VS in zwembaden verdronken is. Geen mens zal Cage om die reden verbieden om nog films te maken, maar voor computers is dat niet duidelijk. Nu ligt dit voorbeeld er erg dik bovenop, maar naarmate je meer variabelen toevoegt, kom je op een goed moment in het grijze gebied waarbij mensen de keuze aan computers overlaten. Meer data is daarbij absoluut geen garantie voor een beter resultaat, zeker niet als tegenwoordig iedereen met een computer aan het martelen kan slaan.

Maar stel dat een verband blijkt te kloppen, dan nog heeft het zijn beperkingen. Net zoals de meeste kledingzaken alleen kleding aanbieden voor het middensegment, qua lengte en dikte, zullen de algoritmes ook het middensegment opzoeken. Goed voor de grote massa, maar mocht je nu een wat afwijkende smaak hebben, dan val je buiten de boot. Spotify, de online streaming service, doet al jaren verwoede pogingen iets te snappen van mijn atypische luistergedrag en ze bakken er nog steeds weinig van. Muse, Pip Blom, Hank Williams, Das EFX, Dido… de algoritmes lopen kennelijk stuk op die combinatie. Dat je na één keer zoeken op vliegtickets naar Barcelona nog weken bestookt wordt met vliegreclames terwijl je al geboekt hebt, is ook meer irritant dan hulpvaardig.

We maken dezelfde fout nog een keer

Het grootste risico is volgens mij echter dat we met Big Data precies dezelfde fout maken die indertijd is gemaakt bij de macro-economische wetenschap. Rationele individuele keuzes zouden tot een min of meer voorspelbaar raamwerk voor de hele economie leiden, wat daarmee een beheersbaar, stuurbaar systeem zou worden. Niets bleek minder waar. Menselijk gedrag houdt zich nu eenmaal niet aan natuurwetten en dat betekent ook dat er van stabiele verbanden geen sprake zal zijn. Niet alleen passen wij ons aan onze omgeving aan, ook onze smaak en voorkeur blijkt verre van stabiel. Het idee dat je met genoeg data uiteindelijk ‘de waarheid’ boven tafel kan krijgen, klopt simpelweg niet.

(origineel gepubliceerd in het Financieele Dagblad van 22 mei 2017)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s