De film Spotlight schetst een heroïsch beeld van onderzoeksjournalistiek. Dappere journalisten van The Boston Globe leggen systematisch seksueel misbruik in de katholieke kerk bloot. Misschien is het u nog niet opgevallen, maar de doorbraak van het verhaal ligt in datajournalistiek.

De journalisten in Spotlight hebben al een paar maanden onderzoek gedaan en een aantal individuele casussen gevonden, wanneer ze de kerkarchieven induiken. Daar zoeken ze de namenlijsten van priesters en ontdekken een patroon: zij die schuldig blijken te zijn aan seksueel misbruik zijn geregistreerd met de term ‘ziekteverlof’ of ‘ramp’ achter hun naam.

Wat volgt is een enorm saaie klus: met een potlood en liniaal nemen de journalisten alle kerkarchieven door en selecteren ze de priesters met de termen ‘ziekteverlof’ of ‘ramp’ achter hun naam. In de film zijn de journalisten dag en nacht met de archieven en hun potloden in de weer: in de metro, in een café, ‘s avonds laat in een donker huis met een biertje erbij. Deze archieven zijn de sleutel naar hun verhaal over systematisch misbruik in de katholieke kerk.

Aardverschuiving

Het onderzoek in Spotlight is allesbehalve technisch, het wordt gedaan met potlood, liniaal en stoffige papieren archieven. Toch is het een simpel voorbeeld van datajournalistiek: journalistiek met data. Die data kunnen alles zijn: kerkarchieven, een bedrijvenregister, e-mails, speeches, de algoritmes van Facebook, of retweets.

“ Met data kunnen journalisten nieuwe verhalen ontdekken, feiten controleren, trends vinden, of simpelweg sneller werken ”

Met data kunnen journalisten nieuwe verhalen ontdekken, feiten controleren, trends vinden, of simpelweg sneller werken. Journalisten werken al jarenlang met data. Toch is er één essentiële, redelijk recente verandering: er worden meer data bewaard, er zijn meer data beschikbaar dan voorheen, en de technische mogelijkheden om de data te analyseren worden steeds beter. Hierdoor heeft het gebruik van data in de journalistiek een enorme vlucht genomen.

Ook worden data en algoritmes steeds vaker onderwerp van journalistiek onderzoek. Denk aan onderzoek naar de manier waarop Facebook of Amazon hun gebruikersdata analyseren. Zorgt datajournalistiek voor een aardverschuiving in de journalistiek? Of blijven we in grote lijnen hetzelfde doen en is datajournalistiek slechts een extra hulpmiddel voor de onderzoeksjournalist?

Patent

Eerst een simpel voorbeeld van datajournalistiek in mijn eigen werk. Samen met collega Casper Thomas schreef ik een artikel over de samenwerking tussen Danone en de Universiteit Utrecht. We wilden weten wat deze publiek-private samenwerking betekent voor het academische onderzoek. Wanneer Danone en de Universiteit Utrecht samen een uitvinding doen, wordt het patent netjes tussen de universiteit en Danone gedeeld, zo vertelden verschillende betrokkenen ons.

Met behulp van datajournalistiek konden we deze stelling controleren: onze datajournalist Adriana Homolova analyseerde het Europese patentenregister en maakte een uitdraai van alle patenten van Danone en de Universiteit Utrecht.

En wat bleek? Alle patenten waarbij de twee partijen hadden samengewerkt stonden op naam van Danone. Met de hulp van onze datajournalist konden we in een paar uurtjes een belangrijke stelling onderuit halen. Het voorbeeld van Spotlight laat zien dat journalisten data kunnen analyseren om trends te vinden en verhalen te schrijven die verder gaan dan individuele casussen.

Dankzij de data-analyse in Spotlight konden de journalisten een systeem van seksueel misbruik blootleggen. Ze ontdekten dat het niet ging om een aantal gevallen of wat rotte appels, maar dat er sprake was van grootschalig seksueel misbruik. Zulke analyses kun je alleen maken als er datasets beschikbaar zijn.

Opsporen

Bij platform voor onderzoeksjournalistiek Investico hebben we het afgelopen jaar gewerkt aan een tool om aanbestedingsmarkten bloot te leggen en trends in deze markten te laten zien. Datasets over aanbestedingen zijn al lang openbaar, maar ze zijn moeilijk te analyseren. Journalisten zouden document na document moeten doorlezen om een analyse te kunnen maken.

Prima voor onderzoek naar een casus, maar ondoenlijk voor een meer systematische analyse. Daarom deden journalisten relatief weinig onderzoek naar aanbestedingen, terwijl er jaarlijks miljarden euro’s aan belastinggeld via aanbestedingen worden uitgegeven.

Met onze tool kunnen we gehele aanbestedingsmarkten in kaart brengen en op die manier ontsluiten we data die al lang publiek beschikbaar waren. We zien welke bedrijven vaak aanbestedingen winnen, welke overheden veel aanbesteden, of kunnen verdachte aanbestedingen opsporen. Zo kunnen we onderzoeken of de aanbestedingsmarkt goed werkt en kunnen we mogelijke corruptie opsporen. Zonder datajournalistiek hadden we dit nooit kunnen onderzoeken.

Ook de Panama Papers waren niet zo groot geweest zonder goede datajournalistiek. Denk alleen al aan de praktische problemen. Hoe hadden we 2,6 terabyte aan gegevens veilig kunnen delen met bijna tweehonderd journalisten over de hele wereld? Nog veel belangrijker was het om de data goed te kunnen doorzoeken. Het lezen van de Panama Papers zou jaren hebben gekost, dus we moesten goede methoden vinden om de documenten te kunnen doorzoeken.

Het Consortium voor Onderzoeksjournalisten ICIJ en de Süddeutsche Zeitung zorgden dat we alle documenten goed konden doorzoeken met trefwoorden, op jaartal, en met grotere zoekopdrachten. Bovendien zorgde ICIJ ervoor dat we veilig konden communiceren met alle journalisten, zodat we onze bevindingen konden delen en elkaar konden helpen.

Zieltjes winnen

Toch is datajournalistiek geen wondermiddel; het is slechts één methode in de gereedschapskist van de onderzoeksjournalistiek. Een belangrijke methode weliswaar, maar wel eentje die aangevuld moet worden met ander werk. Enkel data zeggen weinig; je moet ze interpreteren en aanvullen met informatie uit bijvoorbeeld interviews om echt te begrijpen wat de data zeggen en wat ze betekenen.

Bovendien zijn er vaak ook juist verhalen te vinden op plekken waar data ontbreken. Een gat in een dataset kan een aanwijzing zijn voor iets wat het daglicht niet kan verdragen. Datajournalisten kunnen weinig met zo’n gat in data, want zij onderzoeken data en zijn onthand als de data ontbreken. Dus moeten journalisten met andere methoden aan de slag om te onderzoeken waarom de data ontbreken. Dat kan goede verhalen opleveren.

Dit betekent wel dat datajournalisten nauw moeten samenwerken met andere journalisten om succesvolle producties te kunnen maken. Elk jaar in juni komen in België hackers en journalisten bij elkaar op Data Harvest met precies dat doel: betere samenwerking tussen datajournalisten en traditionele journalisten. De maand juni is ooit gekozen omdat in die maand de datasets over Europese landbouwsubsidies werden vrijgegeven.

Inmiddels is Data Harvest uitgegroeid tot een serieuze conferentie voor hackers die met journalisten willen samenwerken, en journalisten die willen flirten met hacking. Toch staat de conferentie ook bol van verhalen over hoe moeilijk die samenwerking gaat. Hackers en journalisten die elkaar niet begrijpen, traditionele journalisten die geen zin hebben in data, hackers die met prachtige tools voor journalisten komen waar vervolgens geen enkele journalist naar omkijkt.

“ De kunst van datajournalistiek is ook om te zorgen dat datajournalisten beter integreren in de gehele nieuwsredactie ”

De kunst van datajournalistiek is dus ook om te zorgen dat datajournalisten beter integreren in de gehele nieuwsredactie. Ze moeten kunnen uitleggen wat ze doen en moeten data-aspecten in verhalen van hun collega’s ontdekken. Helena Bengtsson, datajournalist bij The Guardian, heeft jarenlang zieltjes gewonnen op haar redactie. Elke keer deed ze een project met een nieuwe collega. Zo ging datajournalistiek als een olievlek over de redactie.

Digitale verzuiling

In september dit jaar stuurde de hoofdredacteur van de Deense krant Aftenposten een open brief aan Mark Zuckerberg, de CEO van Facebook. Aftenposten had een artikel gepubliceerd met daarbij de foto van het napalmmeisje uit de Vietnamese oorlog. Facebook had de publicatie geblokkeerd, het meisje was immers naakt en kon als aanstootgevend gezien worden.

De Deense hoofdredacteur riep Zuckerberg op te stoppen met censureren. “Het recht en de plicht van media om belangrijke informatie naar lezers te brengen, zelfs als die onprettig is, moeten niet ondermijnd worden door algoritmes die gecodeerd zijn in de Facebook-kantoren in Californië”, schreef hij.

Facebook legt de schuld in z’n antwoord bij de algoritmes: “Het is moeilijk om een verschil te zien tussen het ene en het andere naakte kind. We zoeken naar een juiste balans tussen het belang van communicatie en het beschermen van een veilige en respectvolle omgeving voor onze mondiale community. Onze oplossingen zullen niet altijd perfect zijn, maar we zullen blijven proberen om ons beleid te verbeteren.” It’s the algorithm, stupid.

Deze discussie laat goed zien hoe journalistiek beïnvloed wordt door big data en waarom het belangrijk is dat journalisten algoritmes onderzoeken. Algoritmes van grote bedrijven zoals Facebook of Twitter bepalen steeds meer welk nieuws of welke informatie we wel en niet te zien krijgen. Sommigen spreken zelfs van digitale verzuiling.

Taak

ProPublica, een Amerikaans platform voor onderzoeksjournalistiek, werkt al maandenlang aan een serie over machine bias (vooroordelen van machines), waarin ze algoritmes onderzoeken. In een team met een programmeur, een statisticus en traditionele journalisten schrijven ze verhalen over vreemde algoritmes en hun sociale gevolgen.

Ze lieten zien hoe algoritmes die gebruikt worden bij het Amerikaanse Openbaar Ministerie bevooroordeeld zijn ten opzichte van Afro-Amerikanen en hoe deze daardoor een grotere kans hebben op gevangenisstraffen. Ze onderzochten hoe Amazon ervoor zorgt dat klanten te dure producten kopen. En ze legden bloot hoe The New York Times onderzoek deed naar de vraag welke krantenkoppen het meest gelezen werden.

Het wordt tijd voor meer van dit soort datajournalistiek. Journalisten hebben de technische mogelijkheden en de verantwoordelijkheid om ingewikkelde thema’s te onderzoeken. Dankzij datajournalistiek kunnen journalisten voorbij gaan aan incidentjournalistiek, patronen en systemen blootleggen. Journalisten hebben de taak om lezers goed te informeren en macht te controleren. Datajournalistiek is daarbij inmiddels onmisbaar geworden.

Bronnen

  • C. Thomas en K. Kuijpers, ‘De juiste yoghurt’, De Groene Amsterdammer 23.3.2016.
  • T. McCarthy (regisseur), Spotlight, Amerikaans-Canadese film uit 2015.
  • E. E. Hansen, ‘Kommentar’, Aftenposten 8.9.2016.
  • J. Angwin, J. Larson, S. Mattu en L. Kirchner, ‘Machine Bias’, ProPublica 23.5.2016.
  • ICIJ data-analyse van de Panama Papers.