Big data is geen bullshit

Verschijnselen die nadrukkelijk op de agenda worden gezet, verdienen het ook om gerelativeerd te worden. Big Data is volgens Gartner al over de piek van ‘inflated expectations’ heen: hoewel er successen mee zijn geboekt, wordt nu ook afgerekend met hooggespannen verwachtingen.

Big data is bullshit, aldus Nassim N. Taleb, publicist en professor verbonden aan het Polytechnic Institute van New York University. In Wired legt hij uit: “With big data, researchers have brought cherry-picking to an industrial level.”

Hype-Cycle-for-Big-Data-2012Het lijkt erop dat Taleb zich zorgen maakt: big data mag beslist niet met wetenschap geassocieerd worden. Bij enorme hoeveelheden data zouden wetenschappers de omgekeerde weg kunnen gaan bewandelen: niet volgens de route hypothese-onderzoek-data-toetsing-conclusie, maar volgens de route data-conclusie-hypothese. Big-data onderzoekers zouden volgens Taleb kunnen stoppen met hun onderzoek op het moment dat ze het juiste resultaat hebben gevonden, bijvoorbeeld in de vorm van een patroon. Of nog erger: onderzoekers kunnen een hypothese formuleren na het vinden van een patroon.

Taleb zegt op zijn blog op Wired dat iedereen met big data analyses statistische relaties kan vinden. Hoe meer variabelen er worden bekeken, hoe meer correlaties er gevonden kunnen worden. Taleb legt de relatie met observationele studies, waarbij een onderzoeker datasets analyseert, zonder dat er sprake is van een experiment, een interventie en een controlegroep ‘zonder interventie’. Taleb vindt het een fundamentele fout te denken dat we alles kunnen doorgronden als we maar genoeg gegevens analyseren. Taleb pleit er voor de afstand tussen big data en wetenschap groot te houden. Daar is niks mis mee.

Gouden bergen

Het is de vraag of echte wetenschappers zich aangesproken zullen voelen. Ik denk dat Talebs uitspraak vooral pijnlijk is voor bedrijven die in hun marketingcommunicatie gouden bergen beloven: met big data kom je verder. Goede wetenschappers weten dat onderzoek betrouwbaar en valide moet zijn. Betrouwbaarheid van onderzoek verwijst daarbij naar herhaalbaarheid: je onderzoeksuitkomst is alleen betrouwbaar als je bij een herhaald onderzoek op dezelfde resultaten uitkomt. Dat herhaalonderzoek is alleen mogelijk als de volledige onderzoeksmethode goed is beschreven zodat het onderzoek reproduceerbaar is door derden. Terecht wijst Taleb er op dat herhaalonderzoek zelden wordt uitgevoerd – wetenschappers winnen weinig met het doen van onderzoek dat de uitkomsten van eerder onderzoek onderschrijft en dientengevolge is er meestal geen of weinig geld voor beschikbaar.

Big data is geen wetenschap

Taleb maakt met zijn hele betoog echter ook een fout. Hij brengt een relatie aan tussen big data en wetenschap die hij vervolgens zelf probeert te ontkrachten. Inderdaad, big data is geen wetenschap, maar een aanduiding voor het verschijnsel dat er veel data beschikbaar is. Datasets worden steeds groter en complexer; ze worden opgebouwd uit verschillende informatiesoorten en -bronnen. De tijdsfactor – real time – gaat een steeds belangrijkere rol spelen en het verzamelen van data zal in toenemende mate geautomatiseerd geschieden. In De big data revolutie zeggen schrijvers Mayer-Schonberger en Cukier dat er geen exacte definitie van big data bestaat: “De term ‘big data’ verwijst naar dingen die je op een grote schaal kunt doen en op kleinere schaal niet mogelijk zijn, en waarmee je nieuwe inzichten verkrijgt of nieuwe vormen van economische waarde creëert op een manier die invloed heeft op (…) markten, organisaties en de relatie tussen burgers en overheden.”

Groeiende databrij

Big data sec heeft weinig met wetenschap te maken. Maar het heeft weinig zin om big data bullshit te noemen. Allereerst ontken je daarmee het verschijnsel dat we al vreselijk veel data verzameld hebben; dat we dagelijks nieuwe data vastleggen; en dat die databrij in rap tempo gaat groeien omdat het Internet of Things straks miljarden apparaten omvat die allemaal data gaan produceren. Dat brengt belangrijke vragen met zich mee over dataopslag, databeveiliging, data governance en de inzet van business intelligence. Vragen die aan relevantie winnen omdat ze bijvoorbeeld te maken hebben met privacy.  En op de tweede plaats, niet minder belangrijk, heeft de inzet van big data – of hoe je het ook wil noemen – al lang zijn nut bewezen.

 

Deze post is tot stand gekomen in samenwerking met de Zero Distance community en T-Systems