Digital humanities a změna paradigmatu

Preview:

DESCRIPTION

Olomouc, 17. 4. 2012

Citation preview

Digital humanities a změna paradigmatuJosef Šlerka, SNM FF UK, Ataxo InteractiveOlomouc, 17. 4. 2012

OverturaNormalized Compression Distance

NCDfunction ncd ($x, $y) {

$cx = strlen(gzcompress($x));

$cy = strlen(gzcompress($y));

return (strlen(gzcompress($x . $y)) - min($cx, $cy)) / max($cx, $cy);

}

Paradigma

Paradigma (je) souhrn základních domněnek, předpokladů, představ dané skupiny vědců. Ke každému paradigmatu patří i metodická pravidla řešení, intuitivní postoje a hodnocení problémů. Proměna vědeckého paradigmatu se děje zvraty (tzv. vědeckými revolucemi). (Wikipedia)

Čtyři paradigmata

empirický - založený na pozorování přírody

teoretický - vytváří modely, generalizuje

komputační - simulace komplexních systémů

datový - založený na analýze dat

Data: naivně viděno vyjádření skutečností formálním způsobem tak, aby je bylo možno přenášet nebo zpracovat (např. počítačem)

číselné nebo jiné symbolicky vyjádřené (reprezentované) údaje a hodnoty nějakých entit nebo událostí

jakékoliv fyzicky (materiálně) zaznamenané znalosti (vědomosti), poznatky, zkušenosti nebo výsledky pozorování procesů, projevů, činností a prvků reálného světa (reality)

Wikipedia

Změna paradigmatu

data-driven vs. knowledge-drive

komputační metody vs. modelování skutečnosti

Peter Norvig vs Noam Chomsky

Digital HumanitiesThe digital humanities is an area of study, research, teaching, and invention concerned with the intersection of computing and the disciplines of the humanities. Sometimes called humanities computing, the field has focused on the digitization and analysis of materials related to the traditional disciplines of the humanities.

Digital Humanities

první vlna: nástup korpusů, sofistikované prohledávání etc.

druhá vlna: experimentování

třetí vlna: “computational turn”

Zdroje dat

Analogový (v počátcích, ale pro uni důležitý)

Digitální (velmi, velmi pokročilý díky internetu)

Analogový svět

nutné transformovat

představitelnější pro běžné akademiky

ve světě již hutně zastoupený

u nás pořád bída

zajímavé výsledky

Příklady

distant reading

cultural analysis

social network analysis

Distant reading

Franco Moretti

close reading vs distant reading

literaturu je třeba zkoumat jako živočišné druhy

odmítnutí close readingu jako sekularizované podoby čtení Bible

Analýza pohlaví

Cultural analysis

Lev Manovich

analýza a vizualizace velkých, převážně vizuálních korpusů

hledání patternů

Impressionisté

SNA v politologie

data mining politických akcí

vzorové studie jsou z oblati společných hlasování

Pražský magistrát

analýza hlasování za tři volební období

vazba existuje při 75% shodných hlasování

ukazuje skutečné hlasovací jádro

ukazuje vazby napříč stranami

inspirace americkým experimentem

1998 - 2002

2002 - 2006

2006 - 2010

Digitální svět

vešekerá produkce na internetu

záznamy z digitálních zařízení

demokratizace velkých dat

demokratizace technologii

Co jsou to Big Data?Big Data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set.

Co je Data Science?

A data application acquires its value from the data itself, and creates more data as a result. It's not just an application with data; it's a data product. Data science enables the creation of data products.

Sexy job?

“Datový vědec je statistiky žijící v San Franciscu...” (source: Twitter)

“I keep saying that the sexy job in the next 10 years will be statisticians...”

Hal Varian, chief economist at Google.

Data Science

3 000 000 000počet hledání na Googlu denně

30 000 000 000počet zpráv a příspěvků na Facebooku měsíčně

5 000 000 000mobilních telefonů po celém světě

140 000 000průměrný počet zpráv poslaných denně na Twitteru

1 000 000počet denně vygenerovných zpráv na českém Facebooku v otevřených profilech

600 dolarůcena disku na který se vejde veškerá hudba na světě v MP3

100 dolarůcena hodiny provozu klastru 10 počítačů na Amazonu

0 dolarůcena open-source softwarů, jako je Hadoop, Lucene,Cassandra, CouchDB, Elastich Search a dalších

Big Social Data

deep data vs. surface data

data-driven sociální a humanitní vědy

Lev Manovich: The Promises and the Challenges of Big Social Data

Big (Social) Datapřípadové studie

Search Engine Based

normalized Google distance

Google Insight

search suggestion

Google distancepočítá se sémantická vzdálenost

autory jsou Rudi Cilibrasi a Paul M. B. Vitanyi

podobné věci sdílí stejné vlastnosti

dvě reprezentace jsou si tím podobnější, čím méně složitých změn je třeba k převodu jedné v druhou

NGD je vyjádřená vzorcem:

m = log10(počet všech indexovaných stránek);

fx = log10(počet výsledků pro slovo X);

fy = log10(počet výsledků pro slovo X);

fxy = log10(očet výsledků pro slovo X a Y);

GND = ((max(fx,fy) - fxy) / (m - min(fx,fy))

Dovolené podle jazyka

Search jako signál

Hyunyoung Choi, Hal Varia:

Predicting the Present with Google Trends

Jak je to možné?

Život je hledání... (taky)

a dříve než se rozhodneme, hledáme...(taky)

Google Insight

statistiky vyhledávání na Google

využitelné pro predikci nezaměstnanosti

zajímavé výsledky pro vztahy slov

Google a zaměstnanost

Google Insight

Google suggestion

Google suggestion

Báječný svět API

Twitter

Facebook

Foursquare

OpenSubtitles

... korupsy u nohou

Twitter

Facebook

Foursquare

OpenSubtitles

Wikipedia

více jak 500.000 kategorií

více jak 5.500.000 entit

pojmová síť

Sémantický analyzérText je systém, ve kterém jsou souvislosti mezi větami dány i tím, že pojmy, které se v textu vyskytují, náleží ke společnému tématu.

Správné určení tématu (témat) textu je shodné s nalezením nejvyššího společného slovníku pro co největší část použitých termínů.

Ukázkový text...TEHRAN — Thirty-six years after construction began under the shah, Iran finally opened its first nuclear power plant at a ceremony on Saturday.

Attended by senior officials from Iran and Russia, the ceremony marked the beginning of the transfer of low-enriched uranium fuel rods from a storage site into the plant.

Officials of both countries said Saturday’s events signified the opening, not the startup, of the plant near Bushehr, in southern Iran, as a working nuclear plant.

“This is a special day for both Russian and Iranian specialists,” the chief of Russia’s Rosatom state nuclear power company, Sergei Kiriyenko, said, shaking hands and smiling with his Iranian counterparts, in television reports broadcast in Russia, which helped build the station through years of concern by the West that Iran was using its civilian program to mask a plan to build a bomb....

Výsledek: kategorie

Energy

Nuclear technology

International relations

Chemistry

Countries

Výsledek: slovarussia

iran

uranium

nuclear power

nuclear power plant

fuel

Další studie...prediktivní analýza pomocí velkých dat v praxi

Twitter a burza

Mobily a cholera

Facebook a filmy

zmínky o Inception na českém Facebooku 2010 a divácký ohlas

Facebook a filmy

Harry Potter na českém Facebooku 2010 a divácký ohlas

Facebook a filmy

Harry Potter na českém Facebooku 2010 a divácký ohlas

Indexy sociální akceRealita

Virtualita

Akce

Realita

Reakce

logy mobilů

recenze 4SQ

FB likes

FB komentáře

statusy na Twitteu

FB statusy

členství ve FB skupinách

Instagram

FB likes

4SQ check-in

Co dál? Změnit imaginaci! A dát si pozor na intelektuální pasti.

Na co si dát pozor?The lure of objectivity

The power of visual evidence

Black-boxing

Institutional perturbations

The quest for universalism

(Rieder, Rohle: Digital Methods)

Děkuji za pozornost!

Čas na otázky, čas na odpovědi:-)

mail: josef.slerka@gmail.com

twitter: twitter.com/josefslerka

Recommended