View
2.164
Download
3
Category
Preview:
DESCRIPTION
Olomouc, 17. 4. 2012
Citation preview
Digital humanities a změna paradigmatuJosef Šlerka, SNM FF UK, Ataxo InteractiveOlomouc, 17. 4. 2012
OverturaNormalized Compression Distance
NCDfunction ncd ($x, $y) {
$cx = strlen(gzcompress($x));
$cy = strlen(gzcompress($y));
return (strlen(gzcompress($x . $y)) - min($cx, $cy)) / max($cx, $cy);
}
Paradigma
Paradigma (je) souhrn základních domněnek, předpokladů, představ dané skupiny vědců. Ke každému paradigmatu patří i metodická pravidla řešení, intuitivní postoje a hodnocení problémů. Proměna vědeckého paradigmatu se děje zvraty (tzv. vědeckými revolucemi). (Wikipedia)
Čtyři paradigmata
empirický - založený na pozorování přírody
teoretický - vytváří modely, generalizuje
komputační - simulace komplexních systémů
datový - založený na analýze dat
Data: naivně viděno vyjádření skutečností formálním způsobem tak, aby je bylo možno přenášet nebo zpracovat (např. počítačem)
číselné nebo jiné symbolicky vyjádřené (reprezentované) údaje a hodnoty nějakých entit nebo událostí
jakékoliv fyzicky (materiálně) zaznamenané znalosti (vědomosti), poznatky, zkušenosti nebo výsledky pozorování procesů, projevů, činností a prvků reálného světa (reality)
Wikipedia
Změna paradigmatu
data-driven vs. knowledge-drive
komputační metody vs. modelování skutečnosti
Peter Norvig vs Noam Chomsky
Digital HumanitiesThe digital humanities is an area of study, research, teaching, and invention concerned with the intersection of computing and the disciplines of the humanities. Sometimes called humanities computing, the field has focused on the digitization and analysis of materials related to the traditional disciplines of the humanities.
Digital Humanities
první vlna: nástup korpusů, sofistikované prohledávání etc.
druhá vlna: experimentování
třetí vlna: “computational turn”
Zdroje dat
Analogový (v počátcích, ale pro uni důležitý)
Digitální (velmi, velmi pokročilý díky internetu)
Analogový svět
nutné transformovat
představitelnější pro běžné akademiky
ve světě již hutně zastoupený
u nás pořád bída
zajímavé výsledky
Příklady
distant reading
cultural analysis
social network analysis
Distant reading
Franco Moretti
close reading vs distant reading
literaturu je třeba zkoumat jako živočišné druhy
odmítnutí close readingu jako sekularizované podoby čtení Bible
Analýza pohlaví
Cultural analysis
Lev Manovich
analýza a vizualizace velkých, převážně vizuálních korpusů
hledání patternů
Impressionisté
SNA v politologie
data mining politických akcí
vzorové studie jsou z oblati společných hlasování
Pražský magistrát
analýza hlasování za tři volební období
vazba existuje při 75% shodných hlasování
ukazuje skutečné hlasovací jádro
ukazuje vazby napříč stranami
inspirace americkým experimentem
1998 - 2002
2002 - 2006
2006 - 2010
Digitální svět
vešekerá produkce na internetu
záznamy z digitálních zařízení
demokratizace velkých dat
demokratizace technologii
Co jsou to Big Data?Big Data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set.
Co je Data Science?
A data application acquires its value from the data itself, and creates more data as a result. It's not just an application with data; it's a data product. Data science enables the creation of data products.
Sexy job?
“Datový vědec je statistiky žijící v San Franciscu...” (source: Twitter)
“I keep saying that the sexy job in the next 10 years will be statisticians...”
Hal Varian, chief economist at Google.
Data Science
3 000 000 000počet hledání na Googlu denně
30 000 000 000počet zpráv a příspěvků na Facebooku měsíčně
5 000 000 000mobilních telefonů po celém světě
140 000 000průměrný počet zpráv poslaných denně na Twitteru
1 000 000počet denně vygenerovných zpráv na českém Facebooku v otevřených profilech
600 dolarůcena disku na který se vejde veškerá hudba na světě v MP3
100 dolarůcena hodiny provozu klastru 10 počítačů na Amazonu
0 dolarůcena open-source softwarů, jako je Hadoop, Lucene,Cassandra, CouchDB, Elastich Search a dalších
Big Social Data
deep data vs. surface data
data-driven sociální a humanitní vědy
Lev Manovich: The Promises and the Challenges of Big Social Data
Big (Social) Datapřípadové studie
Search Engine Based
normalized Google distance
Google Insight
search suggestion
Google distancepočítá se sémantická vzdálenost
autory jsou Rudi Cilibrasi a Paul M. B. Vitanyi
podobné věci sdílí stejné vlastnosti
dvě reprezentace jsou si tím podobnější, čím méně složitých změn je třeba k převodu jedné v druhou
NGD je vyjádřená vzorcem:
m = log10(počet všech indexovaných stránek);
fx = log10(počet výsledků pro slovo X);
fy = log10(počet výsledků pro slovo X);
fxy = log10(očet výsledků pro slovo X a Y);
GND = ((max(fx,fy) - fxy) / (m - min(fx,fy))
http://www.mechanicalcinderella.com/
Dovolené podle jazyka
Search jako signál
Hyunyoung Choi, Hal Varia:
Predicting the Present with Google Trends
Jak je to možné?
Život je hledání... (taky)
a dříve než se rozhodneme, hledáme...(taky)
Google Insight
statistiky vyhledávání na Google
využitelné pro predikci nezaměstnanosti
zajímavé výsledky pro vztahy slov
Google a zaměstnanost
Google Insight
Google suggestion
Google suggestion
Báječný svět API
Foursquare
OpenSubtitles
... korupsy u nohou
Foursquare
OpenSubtitles
Wikipedia
více jak 500.000 kategorií
více jak 5.500.000 entit
pojmová síť
Sémantický analyzérText je systém, ve kterém jsou souvislosti mezi větami dány i tím, že pojmy, které se v textu vyskytují, náleží ke společnému tématu.
Správné určení tématu (témat) textu je shodné s nalezením nejvyššího společného slovníku pro co největší část použitých termínů.
Ukázkový text...TEHRAN — Thirty-six years after construction began under the shah, Iran finally opened its first nuclear power plant at a ceremony on Saturday.
Attended by senior officials from Iran and Russia, the ceremony marked the beginning of the transfer of low-enriched uranium fuel rods from a storage site into the plant.
Officials of both countries said Saturday’s events signified the opening, not the startup, of the plant near Bushehr, in southern Iran, as a working nuclear plant.
“This is a special day for both Russian and Iranian specialists,” the chief of Russia’s Rosatom state nuclear power company, Sergei Kiriyenko, said, shaking hands and smiling with his Iranian counterparts, in television reports broadcast in Russia, which helped build the station through years of concern by the West that Iran was using its civilian program to mask a plan to build a bomb....
Výsledek: kategorie
Energy
Nuclear technology
International relations
Chemistry
Countries
Výsledek: slovarussia
iran
uranium
nuclear power
nuclear power plant
fuel
Další studie...prediktivní analýza pomocí velkých dat v praxi
Twitter a burza
Mobily a cholera
Facebook a filmy
zmínky o Inception na českém Facebooku 2010 a divácký ohlas
Facebook a filmy
Harry Potter na českém Facebooku 2010 a divácký ohlas
Facebook a filmy
Harry Potter na českém Facebooku 2010 a divácký ohlas
Indexy sociální akceRealita
Virtualita
Akce
Realita
Reakce
logy mobilů
recenze 4SQ
FB likes
FB komentáře
statusy na Twitteu
FB statusy
členství ve FB skupinách
FB likes
4SQ check-in
Co dál? Změnit imaginaci! A dát si pozor na intelektuální pasti.
Na co si dát pozor?The lure of objectivity
The power of visual evidence
Black-boxing
Institutional perturbations
The quest for universalism
(Rieder, Rohle: Digital Methods)
Děkuji za pozornost!
Čas na otázky, čas na odpovědi:-)
mail: josef.slerka@gmail.com
twitter: twitter.com/josefslerka
Recommended