mgm nvj maart

— donderdag 11 april 2013, 14:07 | 0 reacties, praat mee

Les 6: Sorteren, filteren en voorwaardelijke opmaak

Sorteren, filteren en voorwaardelijke opmaak

Als je een schone dataset hebt, kun je op zoek gaan naar informatie. Daar zijn verschillende manieren voor. In deze aflevering behandel ik de meest eenvoudige: sorteren, filteren en voorwaardelijke opmaak.

Ik gebruik hiervoor een nieuwe dataset: De uitslag van de Tweede Kamerverkiezingen 2012 per kandidaat per gemeente.


Stel je krijgt net na de verkiezingen een mooie dataset over het aantal stemmen per kandidaat per gemeente. Daar kun je interessante weetjes uithalen, mogelijk zelfs nieuws. Ik heb deze dataset overigens gekregen van de Kiesraad.


We gaan eerst de CSV-file importeren. Eerst kijken we naar de velden. We zien gemeente, aantal geldige stemmen, partij_id, partij_naam, kandidaat_voorletters, voornaam, tussenvoegsel, achternaam, en volledige naam, geslacht, woonplaats en aantal stemmen gehaald in de betreffende gemeente. Dan scrollen we even naar beneden om te kijken wat er in zit. Vooral een opsomming van gemeenten.


Het aantal records is enorm: enkele honderden kandidaten x 418 gemeenten, in totaal 349.687 records. Daar verzuip je in. En misschien heb je niet alles nodig. Ben je echt nieuwsgierig naar hoe nummer 30 op de lijst Partij voor Mens en Spirit het heeft gedaan (niet al te best kan ik u vertellen)? Je kunt een eerste indruk krijgen van een dataset door slim te sorteren en te filteren.


We kunnen deze data nu gaan bevragen. Wat willen we weten? Stel ik ben stadsredacteur in Utrecht en wil weten hoe kandidaten uit mijn verspreidingsgebied het hebben gedaan in de verkiezingen, maar ook in de stad Utrecht.


Als eerste activeren we het filter – we gaan naar Kandidaat_Woonplaats en dan kunnen we Utrecht op meerdere manieren eruit filteren. Je kunt Utrecht intoetsen in het zoekveld. Dan krijg je een lijst met alle Utrechtse kandidaten. Je ziet dat het filter actief omdat naast het pijltje een filtersymbool staat. Daarnaast zijn de rijcijfers aan de linkerkant blauwgekleurd.


Je kunt ook op andere manieren filteren (als je bijvoorbeeld naar Beek zoekt – er zijn twee gemeenten die zo heten. In dat geval kun je beter een selectie maken door middel van een vinkje. Je hoeft niet alle vinkjes uit te zetten: je kunt op de bovenste klikken en dan Utrecht zoeken. Je kunt ook geavanceerd filteren door bepaalde waarden uit te sluiten, of juist verplicht te stellen.


Je hebt nu een lijst met Utrechtse kandidaten. Maar nu weet je nog steeds niet wie de meeste stemmen heeft gehaald. In dat geval kun je sorteren. Je klikt bij Aantal_Geldige_Stemme en je sorteert van hoog naar laag. We zien dat Pia Dijkstra de Utrechtse kandidate is die de meeste voorkeursstemmen heeft gehad, en wel in Utrecht, Amsterdam en Den Haag. Daarna volgt Linda Voortman met 887 stemmen in Utrecht.


We kunnen ook nog kijken hoe de Utrechtse kandidaten het in Utrecht hebben gedaan. Dan filteren we in kolom A op gemeente. Dit levert een overzichtelijk beeld op. Dit kan een regiojournalist gebruiken voor een verhaal. Hij zou bijvoorbeeld Kaspar Hakkesteegt eens kunnen bellen: die heeft in Utrecht immers maar twee stemmen gekregen, waarvan waarschijnlijk eentje van zichzelf.


Al kijkend kun je dus verder sorteren en filteren, totdat je een set hebt waarmee je uit de voeten kunt. Hou wel bij in welke kolommen een filter actief is. Die filters kun je ook opheffen.


Je kunt trouwens ook meerdere kolommen tegelijk sorteren. Je wilt bijvoorbeeld de gemeenten op alfabetische volgorde hebben en de kandidaten ook (ongeacht partij). Dus alle nummer 1’s bij elkaar per gemeente, etc. Dan ga je naar Gegevens, Sorteren, Aangepast Sorteren. In de pop-up kun je dan een sortering benoemen en vervolgens een niveau toevoegen.


Tot slot kun je ook nog waardefilters instellen. Stel ik wil een dataset maken van alle kandidaten die meer dan 10.000 stemmen hebben gekregen in een gemeente. Dan ga ik naar de kolomfilter. Naar getalfilters. Is groter dan 10.000. Er zijn dus 92 gemeenten waar een kandidaat meer dan 10.000 stemmen heeft gehaald.


Voorwaardelijke opmaak


Als je een snelle blik wilt werpen op je data, kun je ook gebruikmaken van voorwaardelijke opmaak (conditional formatting). Voorwaardelijke opmaak is precies dat: als een cel aan een bepaalde voorwaarde voldoet, wordt hij op een bepaalde manier opgemaakt.


We hebben een dataset [link] met het aantal vacatures per COROP-gebied, een regio-indeling die het CBS gebruikt.


Ik kan allerlei vormen van voorwaardelijke opmaak loslaten op deze data, om snel informatie te vinden.


Ik kan bijvoorbeeld:


1) Een kleurenschaal gebruiken om hoge en lage waarden aan te geven. Ik kan dat per kolom doen.


2) Maar ook voor de hele dataset.


3) Ik kan ook gegevensbalken laten zien. Of pictogrammen.


4) Ik kan berekeningen laten uitvoeren, bijvoorbeeld laten zien welke waarden boven het gemiddelde zijn.


5) Of welke waarden tot de top vijf behoren.


6) Ik kan ook een formule gebruiken.


7) En deze is ook handig: dubbele waarden.


De opmaak kun je helemaal aanpassen. Stel ik wil alles boven het gemiddelde laten zien, dan kan ik de achtergrondkleur aanpassen, of de tekst zelf.


Ik gebruik voorwaardelijke opmaak meestal als ik een dataset aan anderen wil laten zien, zodat zij snel kunnen zien wat belangrijk is en wat niet.


Tips:


1) Met filteren en sorteren kun je ruis uit je data halen en een eerste indruk krijgen. Gebruik het dan ook.


2) Besef dat iedere filter een journalistieke keuze betreft. Door bepaalde waarden weg te laten, beïnvloed je ook je analyse.

Bijlage

Laatste wijziging: 9 juli 2013, 18:47

Bekijk meer van

Tip de redactie

Logo Publeaks Wil je Villamedia tippen, maar is dat te gevoelig voor een gewone mail? Villamedia is aangesloten bij Publeaks, het platform waarmee je veilig en volledig anoniem materiaal met de redactie kunt delen: publeaks.nl/villamedia

Praat mee

Colofon

Villamedia is een uitgave van Villamedia Uitgeverij BV

Uitgever

Dolf Rogmans

Postadres

Villamedia Uitgeverij BV
Postbus 75997
1070 AZ Amsterdam

Bezoekadres

Johannes Vermeerstraat 22
1071 DR Amsterdam

Factuurgegevens

Villamedia Uitgeverij BV
Johannes Vermeerstraat 22
1071 DR Amsterdam

Contact

redactie@villamedia.nl

Redactie (tips?)

Chris Helt, hoofdredacteur

Marjolein Slats, adjunct-hoofdredacteur

Linda Nab, redacteur

Lars Pasveer, redacteur

Trudy Brandenburg-Van de Ven, redacteur

Rutger de Quay, redacteur

Nick Kivits, redacteur

Sales

Sofia van Wijk

Emiel Smit

Teddy van der Laan

Webbeheer

Marc Willemsen

Vacatures & advertenties

vacatures@villamedia.nl

Bereik

Villamedia trekt maandelijks gemiddeld 120.000 unieke bezoekers. De bezoekers genereren momenteel zo’n 800.000 pageviews.

Rechten

Villamedia heeft zich ingespannen om alle rechthebbenden van beelden en teksten te achterhalen. Meen je rechten te kunnen doen gelden, dan kun je je bij ons melden.