In ‘Dit is Big Data’ definieert Lohr (journalist bij de New York Times) big data als ‘het cijfermatige feitenmateriaal dat het resultaat is van metingen en analyses’. Van belang bij big data is niet zozeer de omvang van de gegevensstromen die zich op allerlei fronten aandienen, als wel de kwaliteit van de software waarmee die gegevens kunnen worden geïnterpreteerd en tot betere beslissingen kunnen leiden. Lohr heeft het daarbij over big-datatechnologie als ‘de microscoop of de telescoop van het digitale tijdperk’, waarmee we onzichtbare patronen zichtbaar kunnen maken. In de nabije toekomst zal er sprake zijn van een ‘laag kunstmatige intelligentie die zich zal uitstrekken over zowel het digitale als het fysische domein.’ Hoe dit in de praktijk uitpakt, beschrijft Lohr aan de hand van een grote hoeveelheid voorbeelden en succesverhalen, waarbij twee thema’s als rode draad door het boek heen lopen: de carrière van datawetenschapper Jeffrey Hammerbacher, en de big-dataprojecten waar technologiereus IBM zich de afgelopen jaren aan heeft verbonden. Hammerbacher is een schoolvoorbeeld van een razend intelligente whiz kid, die na lucratieve functies in de financiële wereld en bij Facebook nu directeur is van het uitgebreide experimentele datacentrum van het Mount Sinai-ziekenhuis in New York. IBM heeft zichzelf enige tijd geleden opnieuw uitgevonden en het bedrijf participeert nu onder het motto ‘Smarter Planet’ in een groot aantal veelbelovende big-dataprojecten in uiteenlopende branches en disciplines. De voorbeelden die Lohr in zijn boek de revue laat passeren, spreken soms tot de verbeelding. Mijn favoriet is de experimentele wijngaard van Gallo in Californië, waar men dankzij de analyse van allerlei gegevens die afkomstig zijn van sensors in de grond en van satellietbeelden, elke individuele wijnstok op elk moment van precies de juiste hoeveelheid water kan voorzien. Dat leverde in het eerste testjaar een productiegroei op van 25%, waarbij de geoogste druiven bovendien van betere kwaliteit waren. Ook de landbouw is dus een domein waar de zegeningen van big data op termijn (als de kosten van de benodigde technologie tot acceptabele proporties zijn teruggebracht) over zullen neerdalen. Een paar dingen vallen me op in het boek van Lohr, dat een beetje rommelig is opgezet maar wel een goed overzicht biedt en prettig wegleest. Ten eerste: big data veronderstelt big money. De investeringen die met de verzameling van gegevens en (vooral) de ontwikkeling van intelligente software zijn gemoeid, zijn enorm, en kunnen voorlopig alleen nog maar worden opgebracht door bijzonder kapitaalkrachtige instellingen en bedrijven, die natuurlijk uiteindelijk rendement op hun investeringen verwachten. In het boek komen vrijwel uitsluitend goedbetaalde vertegenwoordigers aan het woord van de crème de la crème van corporate America, succesvolle Amerikaanse start-ups, prestigieuze Amerikaanse universiteiten en een enkele Amerikaanse overheidsinstelling. Individuele onderzoekers en ondernemers zeggen dat ze niet vanwege het geld met big data bezig zijn, maar ze zitten er zonder uitzondering warmpjes bij en de CEO van IBM maakt er geen geheim van dat haar bedrijf vooral uit is op hogere winstmarges en de ontsluiting van nieuwe, lucratieve markten. Gevoegd bij de vaak grootse, mondiale en ‘revolutionaire’ ambities van de hoofdrolspelers (die zich niet zelden presenteren als wereldverbeteraars) levert dat het unheimische gevoel op dat de wereld zoals Dave Eggers die schetst in zijn beklemmende roman The Circle (2013) steeds dichterbij komt. Wie betaalt, bepaalt; de ontwikkelingen die Lohr beschrijft volgen de dynamiek van wat je een academisch-industrieel complex zou kunnen noemen, waarin de politiek nauwelijks een rol speelt en democratische controle zo goed als ontbreekt. Een tweede interessante punt is de discussie die in kringen van datawetenschappers speelt rond het begrippenpaar kwantiteit / kwaliteit. ‘Dataïsme’ gaat in beginsel uit van het primaat van de gegevens: ‘data first’ is voor de hardliners het parool; eerst tellen en dan pas hypotheses opstellen en analyses maken. Op een gegeven moment zal, zo is de gedachte, de kwantiteit van de verzamelde gegevens als vanzelf ook voor kwalitatieve effecten zorgen, nieuwe mogelijkheden bieden en nieuwe dingen tot stand brengen. Deze opvatting berust echter op een naïef idee van wat onderzoek is, of zou moeten zijn. Je moet immers altijd eerst een selectie maken van wat je gaat tellen en bepalen hoe je dat precies gaat doen, en daarbij kun je als onderzoeker je eigen ideeën, vooroordelen en onderzoeksdoelen niet zomaar uitschakelen. Hiermee samen hangt de discussie of je bij de analyse van big data alleen op zoek moet gaan naar simpele correlaties, of dat je er ook de context bij moet betrekken en aandacht moet hebben voor andere, meer complexe relaties, zoals die tussen oorzaak en gevolg. Er worden in het boek af en toe kritische noten gekraakt over ‘kritiekloze dataïsten’ die denken dat het vaststellen van correlaties voldoende is, en dat je voor het maken van analyses geen theorie nodig hebt, geen model voor de werking ervan. Een van Lohrs gesprekspartners stelt zelfs dat we de financiële crisis van 2008 te danken hebben aan dit soort naïef dataïsme en de bijbehorende kortzichtige analyses. Deze kanttekening maakt al duidelijk dat de opkomst van big data niet alleen maar een hosanna-verhaal is. In hoofdstuk 10 stelt de auteur ook nog andere pijnpunten aan de orde, zoals privacy-kwesties, de impliciete discriminatie van op big data gebaseerde marketing en de vraag wie er uiteindelijk verantwoordelijk is voor (het gebruik van) met algoritmes verkregen informatie. De balans lijkt bij Lohr uiteindelijk positief uit te vallen; door technologie veroorzaakte problemen zullen, zo denkt hij als tech-optimist, altijd weer met nog betere technologie opgelost kunnen worden. Verzet tegen de ontwikkelingen is volgens hem bovendien een achterhoedegevecht; op een gegeven moment laat hij zich ontvallen: ‘Praktisch gezien kun je er niet voor kiezen om buiten de wereld van big data te blijven. En de meesten van ons willen dat niet eens’ (p. 248). Oftewel: Big Brother is al lang onder ons. Wen er maar aan.
Recensie
Dit is Big Data
‘Big data besparen geld en redden levens.’ Auteur Steve Lohr benadrukt aan het begin van zijn boek ‘Dit is Big Data’ de positieve effecten van wat hij elders ‘dataïsme’ noemt (‘Data-ism’ is ook de oorspronkelijke titel van het boek). Het slimme gebruik van de exponentieel toenemende hoeveelheid gegevens in diverse bedrijfstakken en in de medische wetenschap heeft inderdaad hier en daar al voor spectaculaire resultaten gezorgd. Maar daar is natuurlijk niet het hele verhaal mee verteld. Want zoals aan elke technologische trend kleven ook aan big data bezwaren en risico’s.
Wardy Poelstra
|
6 augustus 2015