Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Concepten in de Gids: een Gids naar concepten?
Serge ter Braake, Rens Bod, Inger Leemans, Antske Fokkens, team QUPID2
KB Krantendag II, 20 januari 2017
1
7 & 8 December 2015, Helsinki
2
CONCEPTUAL CHANGE –
DIGITAL HUMANITIES CASE STUDIES
http://www.helsinki.fi/collegium/events/conceptual_change/index.html
3
http://event.cwi.nl/drift-a-lod/2016/
22 november 2016
https://www.knaw.nl/nl/actueel/nieuws/knaw-identificeert-dertien-gewenste-onderzoeksfaciliteiten
4
Tijdschrift De Gids, 1837-1910
- Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen
Geen dwarsdoorsnede van de Nederlandse maatschappij, maar wel invloedrijk. (toekomstige) Minister-presidenten en hoogleraren publiceerden in de Gids, zoals Thorbecke, Cort van der Linden, Fruin en Huizinga.
Interessante ‘debatable concepts’ komen aan de orde, zoals kolonialisme, imperialisme en democratie.
5
Stap 1
Krijg de tekst in het format nodig voor jouw analyse
6
De weg van de tekst in de Gids
7
Geprint Gedigitaliseerd In DBNL
In NederlabXML (Frog).txt met en zonder interpunctie en capitalisatie
In AMCATNewsreader NLP Pipeline
Wordle, Wordcounter, Writewords.org.uk, et cetera
‘De computer is dus een technisch hulpmiddel. Hij kan programma’s uitwerken en realiseren die door hun complexiteit of omvang voor een mens praktisch niet uitvoerbaar zijn, bij voorbeeld omdat ze teveel tijd zouden vergen. [..]Een vraag daarbij is in hoeverre dit voor hem een noodzakelijke of zelfs noodzakelijke stap was, en of hij van de computer iets verwacht dat niet met conventionele middelen zou kunnen worden gerealiseerd. Die vraag is mijns inziens relevant, temeer omdat het erop begint te lijken dat er, rond het gebruik van computers door kunstenaars, een soort van magie aan het ontstaan is. Binnen deze magische sfeer heeft alleen al het woord computer de connotatie van bij-de-tijd-zijn. Die connotatie is allereerst modieus en heeft met kunst weinig te maken, Als een nieuw en absoluut logisch medium lijkt echter de computer, evenals allerlei andere technologische en mechanische technieken en materialen die nu door kunstenaars gebruikt worden, wel een rol te spelen in pogingen van individuele kunstenaars om alternatieven te vinden voor subjectieve en intuitieve artistieke processen als het 'ouderwetse' schilderen.’ (Peter Struycken, computerstructuren, 1969. R.H. Fuchs: over het gebruik van computers in beeldende kunst, 143-146, De Gids, 183:2, 1970)
8
Stap 2
Maak jezelf bekend met het corpus (‘handmatig’). Ga lezen.
Lijkt contra-intuïtief, maar het is belangrijk om een idee te hebben van wat er in staat. Niet alles wat afwijkt is altijd even duidelijk. Voorkom de val van decontekstualisatie.
‘The only way to know if your results are useful or wildly off the mark is to have a general idea of what you should be seeing.’ (Megan R. Brett, ‘Topic Modeling: A Basic Introduction’, Journal of Digital Humanities, vol 2., nr. 1, Winter
2012.)
9
Stap 3
Maak jezelf bekend met het corpus (digitaal)
Hoeveel ‘artikelen’?
Hoeveel woorden ?
Hoeveel zinnen?
Welke woorden komen het meest voor?
Kan je al grofweg categoriseren?
10
De Gids: Aantal artikelen per jaar
11
De Gids 1837-1910
Bijna 50 miljoen woorden
1837: 467 x schrijver; 270 x geschiedenis; 226 x wereld
1847: 436 x schrijver; 343 x geschiedenis; 309 x kerk
1857: 459 x minister; 446 x schrijver; 445 x onderwijs
1867: 403 x koning; 365 x onderwijs; 351 x schrijver; 349 x wereld
1877: 478 x geschiedenis; 427 x koning; 423 x stad; 413 x schrijver
1887: 433 x regeering; 414 x kinderen; 393 x volk; 364 x beaumarchais (254 x schrijver)
1897: 485 x kunst; 402 x ziel; 377 x volk (289 x schrijver)
1907: 375 x regeering; 296 x minister; 292 x volk (210 x schrijver)
12
Categorieën voor eigen gebruik
13
Aantal unieke woorden per jaar die meer dan 20 keer voorkomen
Stap 4
Kies je onderzoeksmethode:
Topic Modelling? (waar gaan teksten die bepaalde woorden bevatten nu precies over door de tijd heen?)
Word2Vec? (welke woorden komen voor in aanpalende zinnen? )
Associaties/Probabiliteitsscores in hetzelfde artikel?
14
Inhoudelijke Vraag voor de Humanities
Is het zinnig de verschuivingen in topics op te sporen van teksten waar bepaalde termen in voorkomen?
Is het belangrijk dat woorden dicht bij elkaar leven? (op zinsafstand): Word2Vec
Of is het belangrijker dat woorden in hetzelfde ‘artikel’ voorkomen? Bijvoorbeeld:- Krantenartikel- Biografisch Lemma- Hoofdstuk/paragraaf in een boek
15
Met welke sleutelwoorden begin je te zoeken?
Top down approach: Domeinexperts kennen doorgaans genoeg teksten om te weten welke termen belangrijk zijn en kunnen daar vandaan verder werken. Maar: pas op voor een bevestiging van de bias.
Bottom-up approach: begin met 1 zoekterm (bijvoorbeeld ‘vaccinatie’) en kijk welke woorden in dezelfde tekst voorkomen.
16
Uit een ‘representatieve tekst’ uit 1871. > 5 hits
vaccine
pokziekte
stierven
vaccinatie
sterfte
gevaccineerden
ziekte
manschappen
17
kinderen
gemiddeld
revaccinatie
epidemie
tering
cijfers
vatbaarheid
epidemie
Of: probabiliteitsscores over een heel corpus
In de data van het Biografisch Portaal komt ‘wetenschap’ relatief vaak voor met o.a.:
WijsbegeerteWetmatigheidWiskundeZegeningZelfkritiekSamenlevingZorgvuldigheid
18
The Amsterdam Content Analysis Toolkit (AmCAT)
Relatief laagdrempelig programma voor het analyseren en visualiseren van grote hoeveelheden tekst.
https://amcat.nl
19
Artikelen met daarin ‘kinderen’ EN ‘inenting’
20
Clustermap
21
Associatie
22
Wat is Wetenschap?
23
Volgende stappen
Meer data (om te beginnen: De Gids in de twintigste eeuw; Vaderlandsche Letterkunde)
Langetermijnanalyses, synchrone vergelijkingen.
24