Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herausforderungen

Preview:

DESCRIPTION

Held on December 17th, 2012, as part of the Göttingen Center for Digital Humanities' lecture series on Internet and society. My thanks to Heidi Hanekop for the kind invitation. http://www.gcdh.de/en/events/calendar-view/dr.-cornelius-puschmann-digitale-methoden-in-den-sozial-und-geisteswissenschaften-chancen-und-herausforderungen

Citation preview

Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und

Herausforderungen

Dr. Cornelius PuschmannBerlin School of Library and Information Science /

Humboldt Institute for Internet and SocietyGöttingen Center for Digital Humanities

Ringvorlesung „Internet & Society“17. Dezember 2012

Inhalt

#1„Digitale Methoden“ -- ein

Einordnungsversuch

#2Analysen anhand von Social Media-Daten

#3Potentiale und Probleme

digitaler Methoden

„Internetforschung?“

Netz als Gegenstand

Netz als Forschungsinfrastruktur

Netz als Datenquelle

„Digitale Methoden“

Text- und Korpusananalyse

Netzwerkanalyse

Maschinenlernverfahren

Sentimentanalyse

Bildanalyse

Visualisierung

Durch das Internet und die steigende Beliebtheit von Social Media-Diensten gewinnen Forschungsansätze für den Umgang mit digitalen Kommunikationsdaten an Relevanz:• digital methods (Rogers, 2009)• cultural analytics (Manovich, 2007)• computational social science (Lazer et al, 2009)

Issue Crawler (Rogers et al)

ImagePlot (Manovich/Software Studies Initiative)

Software•open source• benutzerfreundlich • leistungsstark

+

Datenquellen• große Zahl von Quellen

unterschiedlicher Daten•Netz-nativ und

digitalisiert• größtenteils öffentlich

„Digitale Methoden“

Quelle: http://socialmediainbusiness.com

Web 1.0• kaum nutzergenerierte

Inhalte• kein einfacher Zugriff auf

Daten (scraping)

Web 2.0• große Menge nutzergenerierter

Inhalte• besserer Zugriff auf Daten über

Programmierschnittstellen (APIs)

Daten

Zugang Kontrolle

Besitz Interpretation

TOS“law”

API“code”regeln Umgang ermöglicht Zugriff

“There are also significant questions of truth, control, and power in Big Data studies: researchers have the tools and the access, while social media users as a whole do not. Their data were created in highly context-sensitive spaces, and it is entirely possible that some users would not give permission for their data to be used elsewhere.”(boyd & Crawford, 2012, p.12)

Was sind die Implikationen von „Big Data“?

Beispiel Twitter

• Mikroblog/Online-Kurznachrichtendienst, gestartet 2006

• inzwischen 500 Millionen aktive Benutzer

• wird für die Verbreitung von Nachrichten, öffentliche Kommunikation genutzt

• Daten größtenteils über API öffentlich zugänglich

Application Programming Interface (API)

HTTP requestliefere alle Daten eines bestimmten Users/von einem

bestimmten Ort/...

Daten*

Daten aus Twitter extrahieren

Archivieren von Tweets via yourTwapperKeeper

Software

Sammeln:

• The Archivist (Windows)

• yourTwapperKeeper (erfordert Webserver)

• 140kit.com (web-basierte Plattform)

Analysieren:

• Excel, Open Office Calc, SPSS, R, Google Docs..

Visualisieren:

• (Excel, OO Calc, R), Gephi, NodeXL

Rechtliche und ethische Hürden

• Daten dürfen nicht weitergegeben werden (Twitter Terms of Service)

• Datenschutzrichtlinien müssen eingehalten werden (etwa European Data Protection Directive)

• ethische Fragen stellen sich auch dann, wenn die Daten öffentlich sind!

Beispiel: eine Untersuchung der akademischen Blogplattform hypotheses.org

2004−01

2004−02

2004−03

2004−04

2004−05

2004−06

2004−07

2004−08

2004−09

2004−10

2004−11

2004−12

2005−01

2005−02

2005−03

2005−04

2005−05

2005−06

2005−07

2005−08

2005−09

2005−10

2005−11

2005−12

2006−01

2006−02

2006−03

2006−04

2006−05

2006−06

2006−07

2006−08

2006−09

2006−10

2006−11

2006−12

2007−01

2007−02

2007−03

2007−04

2007−05

2007−06

2007−07

2007−08

2007−09

2007−10

2007−11

2007−12

2008−01

2008−02

2008−03

2008−04

2008−05

2008−06

2008−07

2008−08

2008−09

2008−10

2008−11

2008−12

2009−01

2009−02

2009−03

2009−04

2009−05

2009−06

2009−07

2009−08

2009−09

2009−10

2009−11

2009−12

2010−01

2010−02

2010−03

2010−04

2010−05

2010−06

2010−07

2010−08

2010−09

2010−10

2010−11

2010−12

2011−01

2011−02

2011−03

2011−04

2011−05

2011−06

2011−07

2011−08

2011−09

2011−10

2011−11

2011−12

2012−01

2012−02

2012−03

2012−04

2012−05

2012−06

2012−07

Posts per month starting 2004−01

0500

1000

1500

Blogplattform hypotheses.org

Aktivität Januar 2004 - Juli 2012

Indústrias Culturais Criminocorpus Radar Veille énergie climat Veille sur la Corée Le Cresson veille Corps et Médecine URFIST Info No Mundo dos Museus Nuevo Mundo radar Blog de l'IRHiS

Top 10 Blogs by numer of posts (n=45528)

010

0020

0030

0040

0050

0060

00

Blogplattform hypotheses.org

Aktivste Blogs nach Beiträgen (n=45.528)

Blogplattform hypotheses.org

Sprachen

������

������

LQUS�IULQUS�IU������

KVR]NXOW�JHVFKLFKWH�KX�EHUOLQ�GHKVR]NXOW�JHVFKLFKWH�KX�EHUOLQ�GH

������

������

������

������

������

����

������

������

������

��

������

������

������

������

������

QHWYLEHV�FRPQHWYLEHV�FRP

������

������

������

������

������

������

����

������

������

DJHQFH�QDWLRQDOH�UHFKHUFKH�IUDJHQFH�QDWLRQDOH�UHFKHUFKH�IU������

������

������

������

DIIRUGDQFH�W\SHSDG�FRPDIIRUGDQFH�W\SHSDG�FRP

EORJ�KRPR�QXPHULFXV�QHWEORJ�KRPR�QXPHULFXV�QHW

DUFKLYHVQDWLRQDOHV�FXOWXUH�JRXY�IUDUFKLYHVQDWLRQDOHV�FXOWXUH�JRXY�IU

FOHR�UHYXHV�RUJFOHR�UHYXHV�RUJ

������

SHQVHHGXGLVFRXUV�K\SRWKHVHV�RUJSHQVHHGXGLVFRXUV�K\SRWKHVHV�RUJ

������

������

������

������

����

������

������

������ ������

SHUVHH�IUSHUVHH�IU

������

������

ERRNV�JRRJOH�IUERRNV�JRRJOH�IU

����

����

LQVHH�IULQVHH�IU����

������

������

DUFKLYH�RUJDUFKLYH�RUJ

������

������

������

������

������

������

������

������

JHRFDUUHIRXU�UHYXHV�RUJJHRFDUUHIRXU�UHYXHV�RUJ

HFKRJHR�UHYXHV�RUJHFKRJHR�UHYXHV�RUJ

������

������

��

WFS�K\SRWKHVHV�RUJWFS�K\SRWKHVHV�RUJ

������

FXOWXUHYLVXHOOH�RUJFXOWXUHYLVXHOOH�RUJ

����

����

����

������

������

K�QHW�RUJK�QHW�RUJ

������

������

������

������

������

IDFHERRN�FRPIDFHERRN�FRP

HKHVV�IUHKHVV�IU

VOLGHVKDUH�QHWVOLGHVKDUH�QHW

������

����

������

������

����������

����

HUXGLW�RUJHUXGLW�RUJ

OLHQV�VRFLR�RUJOLHQV�VRFLR�RUJ

��

����

������

YLPHR�FRPYLPHR�FRP

������

WHO�DUFKLYHV�RXYHUWHV�IUWHO�DUFKLYHV�RXYHUWHV�IU

������

HVSDFHVWHPSV�QHWHVSDFHVWHPSV�QHW

������

������

����

]RWHUR�RUJ]RWHUR�RUJ

������

HGLWLRQV�PVK�IUHGLWLRQV�PVK�IU

GH�ZLNLSHGLD�RUJGH�ZLNLSHGLD�RUJ

������

������

������

������

������

������

������

����

SKRQRWKHTXH�K\SRWKHVHV�RUJSKRQRWKHTXH�K\SRWKHVHV�RUJ

IOLFNU�FRPIOLFNU�FRP

JDOOLFD�EQI�IUJDOOLFD�EQI�IU

������

������

DGEV�IUDGEV�IU

����

������

������

����

ODYLHGHVLGHHV�IUODYLHGHVLGHHV�IU

������

������

������

������

������

������

������

������

������

������

������

������

FRPLFDOLWHV�UHYXHV�RUJFRPLFDOLWHV�UHYXHV�RUJ

������

����

������

������

GDLO\PRWLRQ�FRPGDLO\PRWLRQ�FRP

\RXWXEH�FRP\RXWXEH�FRP\RXWX�EH\RXWX�EH

������

������

������

����

LISRULHQW�RUJLISRULHQW�RUJ

������

FQUV�IUFQUV�IU

������

������

IUDQFHFXOWXUH�IUIUDQFHFXOWXUH�IU

������

������

������

������

��

������

������

������

������

������

������

������

LQKD�IULQKD�IU

OHJLIUDQFH�JRXY�IUOHJLIUDQFH�JRXY�IU

FDLUQ�LQIRFDLUQ�LQIR

FXOWXUH�JRXY�IUFXOWXUH�JRXY�IU

ODGRFXPHQWDWLRQIUDQFDLVH�IUODGRFXPHQWDWLRQIUDQFDLVH�IU

KDO�DUFKLYHV�RXYHUWHV�IUKDO�DUFKLYHV�RXYHUWHV�IUELW�O\ELW�O\HQVVLE�IUHQVVLE�IU

EQI�IUEQI�IU

������

������

������

VLWHV�JRRJOH�FRPVLWHV�JRRJOH�FRP

����

FODVVLTXHV�XTDF�FDFODVVLTXHV�XTDF�FD

HQ�ZLNLSHGLD�RUJHQ�ZLNLSHGLD�RUJ

������

������

����

XQLJH�FKXQLJH�FK

������

������

������

������

����

������

����

������

������

������

WZLWWHU�FRPWZLWWHU�FRPOHR�K\SRWKHVHV�RUJOHR�K\SRWKHVHV�RUJ

RSHQHGLWLRQ�RUJRSHQHGLWLRQ�RUJ

FOHR�FQUV�IUFOHR�FQUV�IU

K\SRWKHVHV�RUJK\SRWKHVHV�RUJUHYXHV�RUJUHYXHV�RUJ

GRFV�JRRJOH�FRPGRFV�JRRJOH�FRP

������

��

������

������

������

������

������

IDEXOD�RUJIDEXOD�RUJ

������

IU�ZLNLSHGLD�RUJIU�ZLNLSHGLD�RUJ

������

WLQ\XUO�FRPWLQ\XUO�FRP

EORJV�PHGLDSDUW�IUEORJV�PHGLDSDUW�IU

������

HGXFDWLRQ�JRXY�IUHGXFDWLRQ�JRXY�IU

F\EHUJHR�UHYXHV�RUJF\EHUJHR�UHYXHV�RUJ

������

������

����

������

������

������

������

����

������

������

����

������

FDOHQGD�UHYXHV�RUJFDOHQGD�UHYXHV�RUJ������

SXU�HGLWLRQV�IUSXU�HGLWLRQV�IU

GKL�SDULV�IUGKL�SDULV�IU

XQLY�SDULV��IUXQLY�SDULV��IU

KWWSKWWS

OHFWXUHV�UHYXHV�RUJOHFWXUHV�UHYXHV�RUJ

XQLFDHQ�IUXQLFDHQ�IU

VRFLRORJLHV�UHYXHV�RUJVRFLRORJLHV�UHYXHV�RUJ

������ SXI�FRPSXI�FRP

������

HGLWLRQV�KDUPDWWDQ�IUHGLWLRQV�KDUPDWWDQ�IU

������

OFGSX�IUOFGSX�IU

������

������

������

������

������

������

������

DUFKLYHVLF�FFVG�FQUV�IUDUFKLYHVLF�FFVG�FQUV�IU

EEI�HQVVLE�IUEEI�HQVVLE�IU

������

����

KDOVKV�DUFKLYHV�RXYHUWHV�IUKDOVKV�DUFKLYHV�RXYHUWHV�IU

OHPRQGH�IUOHPRQGH�IUG[�GRL�RUJG[�GRL�RUJ

HF�HXURSD�HXHF�HXURSD�HX

OLEHUDWLRQ�IUOLEHUDWLRQ�IU

������

������

Blogplattform hypotheses.org

Verlinkungen externer Webseiten

Offene Fragen:•Wem gehören die Daten?•Wie wird die Privatsphäre der Nutzer gewahrt?•Wer sichert die Qualität der Daten?•Wie reproduzierbar sind die Ergebnisse?•Über welche Art von Prozesse lassen sich

Aussagen treffen?•Wie generalisierbar sind Einzelstudien?

Potentielle Probleme:•Wettlauf um Kompetenzen und Ressourcen

(zwischen Fachbereichen, Wissenschaft/Industrie), um komplexe Phänomene untersuchen zu können•Wandel der Forschungsfragen• Stärkerer Druck zu Team- und

Verbundforschung

Vielen Dank für Ihre Aufmerksamkeit!

Recommended