23
1

Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

1

Page 2: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

2

Eindverslag Project VolgMijnStem

Ben Teeuwen, project manager VolgMijnStem Stichting Het Nieuwe Stemmen

13 juni 2012, Utrecht

Lex Slaghuis, voorzitter Open State Foundation

11-03-2013

Page 3: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

3

Inleiding Dit eindverslag is opgesteld om het Stimuleringsfonds voor de Pers inzicht te geven in de eindresultaten van het project VolgMijnStem. In dit verslag worden allereerst de verrichte activiteiten afgezet tegen de geplande activiteiten, en behaalde resultaten geïdentificeerd. Additionele resultaten in de projectperiode worden ook aangegeven. In de bijlage wordt tevens inzage gegeven in de status van het platform medio februari 2013 en de verdere ontwikkelingen van NuPubliek welke na de afronding van de overeenkomst met het Stimuleringsfonds van de Pers vallen. Het project VolgMijnStem heeft op basis van een samenwerking tussen de Open State Foundation en Sanoma Media geresulteerd in de webapplicatie NuPubliek.nl. Deze website (met meer dan 100.000 bezoekers in de maand van lancering) vertaald grote hoeveelheden politieke data in bruikbare informatie voor burgers. Via de website NU.nl stromen er continue bezoekers door naar NuPubliek.nl om te verdiepen in geaggregeerde politieke data. Er staat een platform dat onderhouden wordt en continu wordt uitgebouwd. Medio maart 2014 wordt de broncode vrij gegeven voor gebruik door derden. Het project VolgMijnStem heeft niet alle aanvankelijke ideeën en functionaliteiten weten te realiseren. In de praktijk werden niet alle functionaliteiten als gewenst, zinvol of haalbaar bevonden, of zijn ze gepasseerd door betere ideeën. Het projectresultaat is dat betreft 100% het resultaat van vele uitwisselingen tussen diverse vakdisciplines. Aan de toekomst van NuPubliek wordt continu gewerkt en 2013 zullen accenten liggen bij het begrijpelijker en relevanter maken van nieuwe inzichten op basis van politieke data. De verwachting is hiermee meer bezoekers te bereiken en NuPubliek als bron van nieuws te ontwikkelen. Het oorspronkelijke projectidee heeft hierdoor een extra verdieping gekregen. De samenwerking tussen Open State en Sanoma Media staat niet op zichzelf. Open State Foundation blijft de komende jaren samen met vrijwilligers, stagiairs en medewerkers investeren in politieke transparantie en politieke data duiding. NuPubliek en open source versies vormen daarbij een stevige basis voor vernieuwing, terwijl nieuwe databronnen, algoritmes en visualisatie beschikbaar komen.

Page 4: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

4

Inhoudsopgave

Inhoud Inleiding ..................................................................................................................................... 3

Inhoudsopgave .......................................................................................................................... 4

1. Activiteitenverslag .................................................................................................................. 5

1.1 Geplande activiteiten ........................................................................................................ 5

1.2 Verrichte activiteiten ......................................................................................................... 6

2 Resultaten ............................................................................................................................... 7

2.1 Hoofdpagina NU.nl ........................................................................................................... 8

2.2 Hoofdpagina Dossier ........................................................................................................ 9

2.3 Inpagina flyout naar politici ..............................................................................................10

2.4 Hoofdpagina Partij ...........................................................................................................11

2.5 Inzicht partij .....................................................................................................................12

2.6 Inzicht politicus ................................................................................................................13

2.7 Verbindingspagina Nu.nl ..................................................................................................14

2.8 Mobiele versie .................................................................................................................15

3. Verschil analyse activiteiten & resultaten ...........................................................................16

Vertraging van het algehele project ....................................................................................16

Geen eindoplevering door iteratief te werken .....................................................................16

Bijstelling functionaliteiten ..................................................................................................16

Bijlage 1. Evaluatie en Roadmap NuPubliek ..........................................................................18

Bijlage 2. Onderzoeksresultaten Classificatie en Programtracker ..........................................21

Page 5: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

5

1. Activiteitenverslag Dit activiteitenverslag is een verdere uitbouw van het eerdere voortgangsverslag waarbij er (na mondeling overleg met het SdvP) op een hoger niveau gerapporteerd wordt. De geplande activiteiten worden uitgezet tegen de verrichtte activiteiten en bijbehorende resultaten. Aanvullende, ontbrekende resultaten worden apart uiteengezet en toegelicht.

1.1 Geplande activiteiten

Zoals beschreven in het activiteitenplan wordt eerst het concept VolgMijnStem gebouwd. Hierbij worden functies uitgewerkt rondom profielen van politici en partijen, kamerhandelingen, sociale interacties, visualisaties, vergelijkingen, personalisatie, Nu.nl integratie en statistieken. Ook worden mogelijkheden rondom sentiment analyse en peiltechnologie verkend. In het activiteitenplan is het realiseren van dit concept in 4 fasen opgedeeld:

1. Organisatie 2. Onderzoek 3. Infrastructuur 4. Ontwikkeling

a. Sprint 1: Basisversie b. Mobiele applicatie c. Sprint 2: uitbreidingen

5. Redactie 6. Event 7. Afronding

Punten 5,6 en 7 zijn niet expliciet opgenomen in het overzicht van uitgevoerde activiteiten

Page 6: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

6

1.2 Verrichte activiteiten

Tijd Activiteit Resultaat

1 aug. ‘11 - dec. ‘11 Organisatie Uitwerken samenwerking Sanoma

Contract ontwikkelfase + 1,5 jaar stapsgewijs verbetertraject

2 okt. ‘11 - nov ‘11 Organisatie Vormgeven project management & kernteam

Aanstellen ontwikkelaar & project manager; opstellen Prince2 artefacten

3 nov. ‘11 - dec. ‘11 Onderzoek Functioneel ontwerp User stories

4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp.

5 apr. ‘12 - mei ‘12 Onderzoek Grafische vormgeving Grafisch ontwerp

6 nov. ‘11 - mei ‘12 Onderzoek Technisch ontwerp Systeem en applicatie Architectuur; API specificaties;

7 Mei – aug 2012 Ontwikkeling Sprint 1 minimal viable product

NuPubliek.nl

10 Aug Ontwikkeling Sprint 1 Lancering NuPubliek.nl, 100.000+ bezoekers

11 Oktober Ontwikkeling Sprint 2 Semi automatisch inladen nieuwe politici en partijen

12 Nov Ontwikkeling Sprint 2 Optimalisatie Mobiele versie, aanpassingen voor cookiewetgeving

13 Nov Ontwikkeling Sprint 2 WordCloud en tekstmining optimalisatie

14 Dec Ontwikkeling Sprint 2 Auto Linking vanuit NU.nl naar NuPubliek

15 Sept-Dec Ontwikkeling Sprint 2 Overige optimalisatie van 364 functionele aspecten

16 Nov-Dec Ontwikkeling Sprint 3 ontwerp Technisch ontwerp, informatie ontwerp, algoritme ontwerp, applicatie ontwerp

17 Dec-mrt 2013 Ontwikkeling Sprint 3 Koppeling Parlis database

18 Jan 2013 Onderzoek Sprint 3 Interactie ontwerp, wireframes, mockups

19 Mrt 2013 Onderzoek Sprint 3 Grafisch ontwerp

20 April-Mei 2013 Ontwikkeling Sprint 3 Implementatie functioneel herontwerp NuPubliek

Grijze gemarkeerde activiteiten zijn geen onderdeel van het oorspronkelijke projectplan van VolgMijnStem.

Page 7: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

7

Overige activiteiten

1 okt ‘11 & apr ‘12 Aansluiting vinden bij open source gemeenschap

Bezoek aan 2 congressen

1 okt. ‘11 - mei. ‘12 Bruikbare data inzichtelijk maken Universiteit van Amsterdam & Tweede Kamer

Codebase UvA; goede contacten bij Tweede Kamer

3 Sept. ‘11 - mrt ‘12 Vorming politiek expertpanel Contactpersonen bij 6 partijen

4 Sept ‘12 Apps for Democratie NuPubliek gepresenteerd bij conferentie in de Tweede Kamer

5 April ’12 – nov. ‘12 Onderzoek Classificatie Uitwerking classificatie op basis van Eurovoc standaard

6 Sept. ’12 – feb. ‘12 Onderzoek automatische koppeling verkiezingsprogramma’s aan politieke data

Prototype automatische geclassificeerde verkiezingsprogramma’s volgens meerdere taxonomieën

7 Dec. ’12 – mrt. ‘13 Onderzoek Parlis data Verkenning van gestructureerde data rond stemmingen, besluiten en documenten vanuit politici en partijen

2 Resultaten Het project VolgMijnStem heeft geresulteerd in een web applicatie te bezichtigen op

NuPubliek.nl. Met NuPubliek kunnen bezoekers snel inzicht krijgen in het profiel van politici en

politieke partijen op documenten uit de Tweede Kamer. Op dossierniveau kan tevens worden

opgezocht wat de betrokkenheid van politici is.

Deze applicatie is op 27 augustus 2012 gelanceerd; vlak voor de landelijke verkiezingen in

september 2012. Daarna is de applicatie continu verbeterd. Functies zoals het volgen van

beloftes zijn niet gerealiseerd maar hebben wel waardevol onderzoek opgeleverd.

Deelresultaten uit dit onderzoek worden stapsgewijs in gebruik genomen op de website

NuPubliek. In 2013 zal NuPubliek zowel stapsgewijs verbeterd worden, als een herontwerp

ondergaan.

Page 8: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

8

2.1 Hoofdpagina NU.nl

Op NU.nl kan direct naar het tabblad ‘NuPubliek’ genavigeerd worden.

NuPubliek is integraal een onderdeel van NU.nl

Page 9: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

9

2.2 Hoofdpagina Dossier

NuPubliek is georganiseerd rond de kernbegrippen: politicus, partij en dossier. Op de NuPubliek hoofdpagina is een overzicht van de dossiers te vinden. Tevens kan genavigeerd worden naar politieke partijen. Door op ’41 Kamerleden’ te klikken, komt er een tussenscherm met een overzicht van alle politici.

Page 10: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

10

2.3 Inpagina flyout naar politici

Dit overzicht van alle politici per partij stelt gebruikers in staat om direct

naar de politicus te gaan waarin ze geïnteresseerd te zijn.

De Tweede Kamer verstrekt een databron met daarin informatie over

Kamerleden en bij welke politieke partij ze horen.

Page 11: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

11

2.4 Hoofdpagina Partij

Omschrijving

Op de dossierpagina is een omschrijving van het dossier te vinden. Dit

is handmatig samengesteld door de redactie. Op basis van een

verzameling bestaande uit combinaties van sleutelwoorden (termen)

wordt een dossier gedefinieerd.

Sociale media integratie (Facebook, Google+ en Twitter) zijn gekoppeld

voor het onder de aandacht brengen van de informatie. Tevens wordt

het sociaal media gebruik opgehaald

Andere dossiers vergelijken

Dossiers kunnen vergeleken worden door direct naar andere dossiers

te linken.

Tijdslijn

Relevante nieuwsberichten van NU.nl/politiek worden weergegeven op

een tijdslijn op basis van termen welke door de redactie aan

nieuwsberichten worden toegevoegd.

Partij activiteiten

Kamervragen, ‘Gesproken’ en ‘moties’ worden gerapporteerd door

vanuit ‘Officiële bekendmakingen’ politici en vervolgens politieke

partijen te destilleren. Op basis van documentclassificatie kan op

onderwerp gerapporteerd worden.

Page 12: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

12

2.5 Inzicht partij

Infobox

Van een politieke partij wordt diverse informatie opgehaald van parlement.com.

Dit betreft de oprichtingsdatum, fractievoorzitter en logo. Tevens integratie van

sociale media.

Zegt vaker dan anderen

Een uniek profiel van onderscheidende woorden op basis van woord analyse

op Officiële bekendmakingen.

Tijdslijn

Een tijdslijn legt een relatie op partijniveau doordat de redactie politieke

nieuwsberichten labelt met partijnaam.

Kamerleden

Er is een infobox met alle Kamerleden aanwezig.

Gelijkenis-index

De gelijkenis index wordt bepaalt tussen partijen door te kijken naar welke

stemmingen overeenkomen.

Onderbreekt vaak / Vaak onderbroken door

Uit Kamerdebatten kan opgemaakt worden welke partij de ander onderbreekt

en vice-versa.

Laatste Tweets

De laatste tweets van de desbetreffende politieke partij

Actiefst op beleidsterreinen

Kamervragen, ‘Gesproken’ en ‘moties’ worden gerapporteerd door vanuit

‘Officiële bekendmakingen’ politici en vervolgens politieke partijen te

destilleren. Op basis van documentclassificatie kan op onderwerp

gerapporteerd worden.

Page 13: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

13

2.6 Inzicht politicus

Infobox

Van een politicus wordt diverse informatie opgehaald van parlement.com. Dit

betreft de geboortedatum, partij en zittingsdatum.Tevens integratie van

Sociale media.

Zegt vaker dan anderen

Er is woord analyse gedaan op Officiële bekendmakingen, waarbij politici aan

woorden toegedicht kunnen worden. Dit geeft een uniek profiel van

onderscheidende woorden.

Tijdslijn

Een tijdslijn legt een relatie op partijniveau doordat de redactie politieke

nieuwsberichten labelt met partijnaam.

Gelijkenis-index

De gelijkenis index tussen politici wordt vooral bepaald door te kijken naar het

samen indienen van stukken en stemgedrag

Onderbreekt vaak / Vaak onderbroken door

Uit Kamerdebatten kan opgemaakt worden welke politicus de ander

onderbreekt.

Actiefst op beleidsterreinen

Kamervragen, ‘Gesproken’ en ‘moties’ worden gerapporteerd door vanuit

‘Officiële bekendmakingen’ politici te destilleren. Middels

documentclassificatie kan op onderwerp gerapporteerd worden.

Page 14: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

14

2.7 Verbindingspagina Nu.nl

Vanuit NU.nl wordt ook direct gelinkt naar specifieke pagina’s van

NuPubliek op het vlak van dossiers, partijen en politici.

Dit zorgt voor extra bezoekers op NuPubliek.

Page 15: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

15

2.8 Mobiele versie

NuPubliek is ook te gebruiken op tablets zoals Ipad’s en de Google

Nexus.

Page 16: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

16

3. Verschil analyse activiteiten & resultaten

Beschikbaarheid budget

Er is €20.000 minder geld toegekend door het Stimuleringsfonds voor de Pers en geen geld

door de Knight Foundation (€30.000 begroot). Daardoor is er €50.000 minder beschikbaar

geweest voor dit project. In de praktijk heeft dit gevolgen gehad voor het realiseren van de

functionaliteit rond de beloftes van politici.

Vertraging van het algehele project

De applicatie is 6 maanden later gelanceerd dan gepland. September 2012 is de website gelanceerd, maar de planning hiervoor gaf maart aan. De eerste reden hiervoor is dat de juridische afronding met Sanoma vertraagde vanwege de complexiteiten van delen van de software als open source. Er is vastgelegd wie welke delen ontwikkeld, zodat Sanoma eigen technologie niet per ongeluk in het publieke domein laat vallen. De tweede reden voor vertraging is het uitstellen van een ‘go’ bij de stuurgroep vanwege personele wisselingen bij Sanoma. Er zijn 6 personen in de stuurgroep gewisseld in de periode september 2011-april 2012. Daarna is de stuurgroep niet veranderd en beide partijen zitten op een lijn met betrekking tot het project.

Geen eindoplevering door iteratief te werken

Na de eerste lancering is er continu doorgewerkt aan NuPubliek. Er zijn meer dan 364 aanpassingen gedaan en functies toegevoegd. Het blijkt makkelijker kleine functionaliteiten toe te voegen dan een grootschalig herontwerp te realiseren. Hierdoor is er eigenlijk nooit stil gestaan bij de formele eindoplevering. Immers, er waren altijd wel wensen en eisen die openstonden en toegevoegd moesten worden. Desalniettemin zal er in 2013 een product herontwerp plaats vinden, vooral om nieuwe databronnen te kunnen gebruiken en visualisaties mogelijk te maken. Ondertussen worden de resultaten uit de onderzoeken al stapsgewijs toegevoegd aan de lopende versie van NuPubliek.

Bijstelling functionaliteiten

We benoemen hier afwijkingen van de beoogde resultaten, welke eerder besproken zijn met het

Stimuleringsfonds van de pers.

Beloftes van politici

NuPubliek geeft geen inzicht in beloftes van politici. Bevonden is dat dit vooralsnog te complex

is om te implementeren op zowel organisatorisch als het technische vlak. Tevens is gebleken

dat budget hiervoor tekort schiet. Wel is er kosteloos een onderzoek opgezet om de

mogelijkheden te verkennen zodat in een latere fase dit alsnog betaalbaar geïmplementeerd

kan worden. Het vereist een nauwe afstemming tussen techniek, input van bezoekers en een

modererende redactie. Voor meer informatie, zie: ‘Bijlage 2. Onderzoeksverslag Classificatie en

Programtracker’.

Page 17: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

17

Data manipuleren en vergelijken politici en partijen

Gebruikers kunnen niet zelf selecties en combinaties maken om vervolgens politici en partijen te

vergelijken. Gebruikers onderzoek wees uit dat de specifieke doelgroep en de mediaformule

van nu.nl niet geschikt is voor deze interactiviteit. De insteek is om de gebruiker zoveel mogelijk

bij de hand te nemen.

Dat doet niet af aan de latente behoefte bij gebruikers om vergelijkende inzichten te vergaren.

De manier waarop dit gefaciliteerd wordt in het platform is door kruisverbanden te leggen tussen

partijen, dossiers, en politici onderling. Tevens is er een gelijkenis-index voor partijen en politici,

en informatie over het onderbreken.

Directe inzage in Kamerdebatten, vragen en moties

Verder zijn de Kamerdebatten, Kamervragen en moties niet binnen de opmaak van de site

beschikbaar. Bovengenoemde stukken zijn dermate complex en onleesbaar dat ze voor elke

massa media doelgroep ongeschikt zijn.

Het antwoord van NuPubliek hierop is dat deze stukken zeer relevant zijn voor inzichten, maar

dat deze in snel te doorgronden inzichten moeten worden aangeboden. Bijvoorbeeld door data

te clusteren rondom thema’s in een ‘WordCloud’. Maar ook door in een tijdslijn zichtbaar te

maken wat de activiteiten van politici en partijen zijn, of op dossier niveau aan te geven in welke

mate politici en partijen actief zijn op dit onderwerp.

Weergave geldstromen

Het weergeven van geldstromen is niet mogelijk omdat noodzakelijke gegevens niet worden vrij

gegeven. De Kamer heeft wel ingezet op wetgeving waarmee dit verplicht wordt, maar

vooralsnog is deze informatie niet beschikbaar als open data.

De wisselingen in het politieke landschap maken dat politieke transparantie niet een eerste

prioriteit is, op het vlak van open data worden beleidsaccenten voornamelijk gelegd op open

data rond publieke dienstverlening.

Personalisatie

Gedurende het project werd duidelijk dat Sanoma een infrastructuur voor personalisatie aan het

ontwikkelen is. Hierdoor is het niet langer mogelijk als project een gepersonaliseerde beleving

te ontwikkelen.

Page 18: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

18

Bijlage 1. Evaluatie en Roadmap NuPubliek

Opgesteld door: Lex Slaghuis

Er is in de periode september-december strategisch gekeken hoe het platform zich verder kan

ontwikkelen.

Hierbij zijn er een aantal strategische doelen geïdentificeerd:

● Buiten de verkiezingen NuPubliek meer bruikbaar en relevant maken, verhoging van het

aantal bezoekers en de bezoekerstijd

● NuPubliek sterker laten aansluiten bij Sociale media

● Meer nieuwswaardige feiten onthullen

Uitdagingen welke als relevant worden gezien:

● Mensen weten niet wat een motie of amendement is, en of 40 moties indienen goed of

slecht is. Politieke geaggregeerde data is nog te weinig zeggend.

● Verbinding met de redactie NU.nl dient steviger uitgewerkt te worden.

● Er komen steeds meer nieuwe databronnen bij.

● Subjectieve (Tekst mining) algoritmes (zoals de huidige WordCloud) welke werken op

basis van geaggregeerde data worden constant vernieuwd.

● Visualisatie mogelijkheden ontwikkelen zich ook erg snel

● Ruwe ‘Inhoud’ uit de Tweede Kamer, zoals de teksten van de moties, zijn voor de

gemiddelde Nederlander onleesbaar.

Hierbij is het volgende ontwerp tot stand gekomen voor de volgende release. Het platform wordt

omgebouwd zodat de volgende aspecten ingebouwd kunnen worden:

● nieuwe datasets

● nieuwe algoritmen welke subjectieve inzichten geeft op basis van objectieve gegevens

● nieuwe visualisaties

De combinatie van nieuwe data x algoritme levert in potentie nieuws op, en genereert dus een

‘event met een data noviteit’ welke naar de redactie kan, maar ook automatisch gepubliceerd

kan worden op NuPubliek.nl. Simpel gezegd: Als Wilders een motie indient is dat geen data-

Page 19: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

19

nieuws. Maar als hij de persoon wordt die de meeste moties indient, dan is dat wel nieuws.

Interessant nieuws wordt het op het moment dat hij de persoon wordt die de meeste moties

rond ‘milieu’ indient. Dan is het tijd voor redactie (en samenleving) om eens te zoeken naar een

verklaring.

Deze subjectieve inzichten worden gekoppeld aan politici, partijen, bewindvoerders, en

gecombineerd met dossiers zoals milieu, onderwijs en zorg.

Nieuwe data die hiervoor in de nieuwe release gebruikt gaat worden is de zogeheten Parlis

database van de Tweede Kamer. Deze bevat veel gegevens rond politici en partijen,

stemmingen, besluiten en activiteiten. De onderliggende documenten zorgen voor de verbinding

met dossiers als onderwijs, milieu, enz. Deze verbinding wordt gerealiseerd met tekst-mining en

levert per definitie een subjectieve weergave, vandaar dat er in deze tekst vanwege de juistheid

continue onderscheid wordt gemaakt tussen subjectieve en objectieve gegevens.

De Tweede Kamer heeft de intentie om dit jaar nog een aantal additionele databases vrij te

geven. Met de ontwikkelde Architectuur kunnen deze bijgeplaatst worden.

De stappen die hiertoe zijn genomen:

● Evaluatie doelen en uitdagingen

● Ontwerp architectuur

● Verkenning van algoritmen in combinatie met echte (maar iets oude ) Parlis data

● Koppelen van de Parlis database, het inladen en manipuleren van deze gegevens.

(Merk op dat deze data ook voor het publiek toegankelijk is via

http://data.appsvoordemocratie.nl/updates/. )

● Opstellen nieuw interactie ontwerp

Afbeelding. Nieuwe architectuur

Op dit moment wordt gewerkt aan:

● Hergebruiken van Parlis data vanuit NU.nl ten behoeve van Stemmingsdata

Page 20: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

20

● Definitieve vaststelling ontwerp in samenspraak met NU.nl

● Als eerste concrete stap wordt op dit moment het ‘Eurovoc’ algoritme in productie

genomen om dossiers te organiseren op basis van Tweede Kamer handelingen. Deze

data werd voorheen ook al gebruikt. Dit zal het aantal dossiers wezenlijk uitbreiden op

NU.nl.

● Tevens wordt er gewerkt aan automatisch linken van NU.nl berichten naar NuPubliek,

zodat er meer verkeer op de NuPubliek website ontstaat. Hierdoor wordt tevens de

redactie ontlast.

De planning is om:

In 2013 met een team in een maand deze grote update (architectuur + visualisatie) af te ronden

en in productie te nemen. Daarna – naast onderhoud - , nieuwe data en algoritmes in gebruik te

nemen die in dit model passen.

Page 21: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

21

Bijlage 2. Onderzoeksresultaten Classificatie en Programtracker

Opgesteld door: Ben Teeuwen

Een van de voornaamste redenen om het project VolgMijnStem medio oktober 2011 te lanceren betrof het afzetten van beloftes tegen gedrag. Verkiezingsprogramma’s zouden moeten dienen als een soort Politiek Ontwikkel Plan (pop) van een partij, en VolgMijnStem zou als een functioneringsgesprek gaan functioneren; hoe verhoudt het POP zich tot het vertoonde gedrag? Een belangrijke stap daarin is om verkiezingsprogramma’s en het gedrag op een redactioneel vriendelijke wijze te kunnen ordenen naar onderwerpen. Op welk onderwerp zoom je in om te analyseren hoe het gedrag zich verhoudt tot beloften? De stichting en de nu.nl redactie vinden het van begin af aan niet realistisch om tienduizenden politieke documenten handmatig te classificeren volgens zelf bedachte categorieën. De insteek is dan ook altijd geweest om algoritmes in te zetten die idealiter volautomatisch werken, maar minstens 80% van het werk uit handen nemen. Uit navraag binnen het politieke technologie netwerk van de stichting blijkt dat er wereldwijd nog geen technologie beschikbaar is die hiervoor pasklaar ingezet kan worden. In samenwerking met studenten van de UvA en UU is er dan ook uitvoerig onderzoek naar gedaan. Dit heeft zich met name na het in april/mei opgestelde tussentijdse verslag afgespeeld. Het onderzoek heeft zich gericht op het ontwikkelen van een algoritme wat verschillende bronnen van politieke data kan classificeren. Dit maakt analyses mogelijk van politieke data (verkiezingsprogramma’s, Kamervragen, debatten) op basis van door een redactie bepaalde set van onderwerpen. Samenvattend zijn er 2 verschillende manieren verkend om dit te bereiken.

1. Technologie baseren op handmatig geclassificeerde documenten

Hiervoor is door de EU geclassificeerde data gebruikt. De EU maakt gebruik van een

vocabulaire set van zo’n 3.000 grotendeels hiërarchisch ingedeelde onderwerpen. Ieder politiek

stuk is de afgelopen decennia handmatig ingedeeld volgens deze set van onderwerpen. We

hebben onderzocht in hoeverre deze set als basis kan fungeren voor een getraind algoritme wat

vervolgens automatisch documenten uit de Tweede Kamer kan classificeren. Het resultaat is

veelbelovend, hoewel de foutenmarge sterk toeneemt naarmate onderwerpen concreter

worden. De kwaliteit is echter bruikbaar voor het niveau waarop nu.nl op dit moment dossiers

indeelt (onderwijs, zorg).

2. Zonder historische gegevens ‘uit het niets’ onderwerpen ontdekken

Moderne algoritmes worden steeds beter om uit het niets onderwerpen te ontdekken in teksten.

Er is geprobeerd om dit toe te passen op verkiezingsprogramma’s. Hiervoor is er veel tijd

gestoken in het naar platte tekst omzetten van verkiezingsprogramma’s, alvorens er algoritmes

op toegepast konden worden. Uit voorlopige resultaten blijkt dat deze classificatie niet op

zichzelf kan staan, maar wel aanvullend kan werken bij de op 1 genoemde werkwijze.

Gezien de potentie van werkwijze 1 is deze methodiek verder onderzocht.

Page 22: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

22

Classificeren met Europese thesaurus

Het classificeren van politieke documenten is gedaan op basis van een Europees ontwikkelde

Vocabulaire waarin alle politieke documenten mee geclassificeerd worden genaamd ‘eurovoc’.

Het resultaat werkt als volgt:

● De input is een nieuw (politiek) document (bv. kamervraag, handeling, motie, paragraaf

uit een verkiezingsprogramma, NU.nl politiek artikel)

● De output is een gerangschikte lijst van 2.833 EuroVoc termen

Hieronder een voorbeeld. Links zie je een gedeelte van een Europees wetgevingsdocument,

rechts zie je de output van het systeem waarin de 2.833 EuroVoc termen gerangschikt zijn op

de overeenkomst die zij met het document hebben.

Bovenstaand document is ooit handmatig geclassificeerd met 8 EuroVoc termen door een

classificatie-expert van de EU. In de resultatenlijst zijn deze 8 termen te zien in bold. Termen 1

t/m 3 zijn dus goed geclassificeerd. Term 4 en 5 zijn fout, maar term 6 ('dierenziekte') is weer

goed. De overige 4 termen staan op positie 12, 13, 18 en 39.

Een manier om dit resultaat te meten is de R-precision. Je telt dan simpelweg hoeveel termen

er goed zijn van de eerste k termen, waarbij k het aantal termen is dat ooit door de classificatie-

expert is gebruikt om het document te classificeren. In bovenstaand geval; k = 8 en van de

eerste 8 termen zijn er 4 goed (rank 1,2,3 en 6), dus de R-precision is 4/8 = 0.5. Het systeem is

getraind op 37.737 Europese wetgevingsdocumenten en getest op 4.193 documenten. De

gemiddelde R-precision over de geteste document is 0.5985. Met andere woorden; het systeem

is zeker niet perfect, maar zit aardig vaak goed.

Page 23: Eindverslag - Stimuleringsfonds voor de Journalistiek · 4 jan. ‘11 - apr. ‘11 Onderzoek Interactie ontwerp Wireframes v1 & v2, demo site & akkoord integraal functioneel ontwerp

23

Het is lastig om te voorspellen hoe goed het systeem werkt, want het hangt erg af van de soort

documenten. Zo lijkt het dat kamervragen en moties aardig goed geclassificeerd worden, maar

handelingen/debatten erg slecht (in dat soort documenten wordt er minder duidelijk/objectief

over onderwerpen gesproken).

Daarnaast is de evaluatie niet perfect, dus moet er niet te veel waarde aan de R-precision score

gehecht worden. Zoals in bovenstaand voorbeeld namelijk te zien is zijn bijna alle top-12 termen

relevant, ook al zijn niet geselecteerd door de EU classificatie-expert.

Dit systeem is te gebruiken voor NuPubliek op twee manieren:

1 De meest makkelijke optie is volautomatische classificatie van de (politieke)

documenten. Het systeem classificeert elk binnenkomend document en de beste 3

termen (of hoeveel per document gewenst zijn) worden toegekend aan het document. Er

zullen dus foute termen tussen zitten, maar het merendeel van termen zal relevant zijn.

2 Als het onacceptabel is dat er foute termen worden toegekend aan documenten dan is

er een menselijke stap nodig zijn om dat te verhelpen:

○ Er kan een medewerker elke dag of ééns per week kijken of de termen die zijn

toegevoegd correct zijn en missende termen alsnog toevoegen. Des te preciezer

de gewenste resultaten des te meer tijd het kost om voor elke document precies

de juiste termen te vinden.

○ De termen zouden aangepast kunnen worden door middel van crowdsourcing.

Het systeem hangt in eerste instantie volautomatisch een aantal termen aan elk

document. Daarna zouden (ingelogde) bezoekers van de site goede termen per

document kunnen upvoten, slechte downvoten en nieuwe termen toevoegen.

Huidige stand van zaken Op dit moment wordt er gewerkt aan het optimaal classificeren van politieke data en

verkiezingsprogramma’s. Er ontstaat namelijk altijd een foutenmarge. Deze hangt af van het

abstractie niveau waarop onderwerpen gekozen worden. Classificeren op ‘milieu’ levert

bijvoorbeeld minder fouten op dan wanneer data op het meer concrete thema ‘energiebeleid’

ingedeeld wordt.

Er wordt dus gekeken hoe om te gaan met de 2.833 EuroVoc hiërarchisch onderverdeelde

termen. Er zijn 21 hoofdonderwerpen, met daaronder een stuk of 127 sub-onderwerpen. Alle

2.833 EuroVoc termen zijn vervolgens in meerdere lagen ondergebracht in die 127 sub-

onderwerpen. NuPubliek kan er voor kiezen om op bepaalde pagina's de termen te aggregeren

op het hoofd- of sub-onderwerpen niveau, terwijl er op andere pagina's veel gedetailleerdere

termen kunnen worden weergegeven.

Het voorlopige resultaat van het classificeren van verkiezingsprogramma’s is op dit moment

zichtbaar op http://hmvp.nl:8000/. Op onderwerpen ingedeelde politieke data is vooralsnog niet

via internet te zien, maar alleen op lokale machines. Er wordt in ieder geval gewerkt naar het

toepassen van één classificatie mechanisme toegepast op zowel verkiezingsprogramma’s als

politieke data.