45
Sv ě t vid ě n ý kompresním algoritmem 3. 11. 2015 Josef Š lerka Studia nov ý ch médií

Svět viděný kompresním algoritmem

Embed Size (px)

Citation preview

Page 1: Svět viděný kompresním algoritmem

Svět viděný kompresním algoritmem3. 11. 2015 Josef Šlerka Studia nových médií

Page 2: Svět viděný kompresním algoritmem

Obsah

1. Kolmogorova komplexita

2. Syntaktická aplikace - kompresní algoritmy

3. Sémantická aplikace - corpus distance

4. Pragmatická aplikace - social distance

Page 3: Svět viděný kompresním algoritmem

1. Kolmogorova komplexita algoritmická teorie informací informační vzdálenost

Page 4: Svět viděný kompresním algoritmem

Kolmogorov a složitost

Teorie Kolmogorovy komplexity se snaží odpovědět na otázku “Co je nahodilý objekt?”

Představuje algoritmickou teorii informace a tvoří de facto doplněk teorie Shannona.

Page 5: Svět viděný kompresním algoritmem

Složitost

Mějme k dispozici tři číselné řetězce v desítkové soustavě:

a) 3333333333

b) 3141596535

c) 84354279521

Který z nich bychom považovali za náhodný?

Page 6: Svět viděný kompresním algoritmem

Složitost

Čím delší je popis postupu, který potřebujeme k popsání řetězce, tím je řetězec více komplexní. V Kolgomorově pojetí však nejde o popis v nějakém jazyce, ale existenci univerzalního počítačového stroje (Turingova stroje), který takový popis generuje, a délku tohoto programu.

Page 7: Svět viděný kompresním algoritmem

Informační vzdálenost

Teorie informační vzdálenosti představuje rozšíření Kolmogorovy komplexity o myšlenku vzdálenosti mezi řetězci, respektive jejich podobnosti. Podle ní je minimální informační vzdálenost mezi dvěma instancemi (řetězce x a y) vyjádřená délkou nejkratšího programu, který transformuje jeden řetězec na druhý a naopak. Univerzální informační vzdálenost je vyjádřena pak vzorcem E(x,y) = max{K(x|y),K(y|x)}.

Page 8: Svět viděný kompresním algoritmem

Informační vzdálenost

Vitányi a Cilibrasi od této myšlenky odvozují obecnou normalizovanou informační vzdálenost (normalized information distance), která by byla schopna produkovat i metrickou vzdálenost. Výsledkem je následující vzorec

Page 9: Svět viděný kompresním algoritmem

2. Normalized Compression DistanceSyntaktická aplikace

Page 10: Svět viděný kompresním algoritmem

NCDTeorie informační vzdálenosti je teoretická konstrukce, kterou není možné v praxi vytvořit, je totiž závislá na nespočitatelné funkci K. Je však možné použít jinou funkci, která se v reálném světě o podobnou funkčnost snaží. Těmito programy jsou dle autorů kompresní algoritmy, které mají za úkolu spočítat co největší bezztrátovou kompresi dat, tedy co největší redukci komplexit pomocí univerzálního programu.

Page 11: Svět viděný kompresním algoritmem

NCD

Odpovídá to i zkušenosti, kterou máme z jejich každodenního používání. Pokud pomocí kompresního programu tzv. zabalíme dva soubory, které jsou si podobnější než jiné dva, rozdíl mezi výslednou délkou nového souboru a délkou odpovídající součtu délek původních souborů je menší.

Page 12: Svět viděný kompresním algoritmem

NCD Komprese dat (také komprimace dat) je zpracování počítačových dat s cílem zmenšit jejich objem (jednotka bajt) při současném zachování informací v datech obsažených. Úkolem komprese dat je zmenšit datový tok při jejich přenosu nebo zmenšit potřebu zdrojů při ukládání informací. (Wikipedia)

Obvykle se snaží alg. nalézt opakující se sekvence znaků a vytvořit z nich slovník, který umožňuje odkaz na přesné místo.

Page 13: Svět viděný kompresním algoritmem

Příklad komprese

P. Petyovský, Metody a algoritmy komprese dat. Od základních principů k aplikaci

Page 14: Svět viděný kompresním algoritmem

NCDUpravený vzorec vypadá následovně:

Přičemž Z je kompresní algoritmus a x a y zůstávají řetězce určené k porovnání.

Formální důkazy Vitányiho a Cilibrase ukazují, že se jedná o plnohodnotnou distanční metriku.

Page 15: Svět viděný kompresním algoritmem

NCDAutoři NCD provedli sérii testů navrženého postupu na celé řadě druhů řetězců (knihy, lidský genom, MIDI soubory), které se zdají potvrzovat univerzální charakter navrženého modelu a to včetně klasifikace heterogenních řetězců. Na vstupu v tomto experimentu byla data z genetiky, ukázky z literárních textů, MIDI soubory, binární počítačové programy a zkompilované programy ze zdrojových kodů programovacího jazky Java. Využit byl kompresní algoritmus bzip a metoda quartet clustering.

Page 16: Svět viděný kompresním algoritmem
Page 17: Svět viděný kompresním algoritmem

Originály

Page 18: Svět viděný kompresním algoritmem

Překlady

Page 19: Svět viděný kompresním algoritmem

Karel Čapek

Page 20: Svět viděný kompresním algoritmem

Česká poesie

Page 21: Svět viděný kompresním algoritmem
Page 22: Svět viděný kompresním algoritmem

NCD

Experimenty dalších autorů potvrzují předchozí experimenty autorů, včetně předpokládané odolnosti NCD proti šumům v textu. Dále se věnují jeho dalším aplikacím například pro automatickou evaluaci strojového překladu. Další studie, za účasti autora původního týmu Paula Vitanyiho, pak sledují využití NCD při klastrování.

Page 23: Svět viděný kompresním algoritmem

NCDv rámci semináře Digital Humanities provedli studenti Studia nových médií řadu experimentů, které naznačují univerzálnost postupu:

http://snm-blog.tumblr.com/post/42742243421/digital-humanities-6-complearn

http://janmarsicek.tumblr.com/post/44283514150/ncd-capek-macha-nemcova

http://jitkab.tumblr.com/post/38054898777/podobnost-seri%C3%A1l%C5%AF-podle-ncd

Page 24: Svět viděný kompresním algoritmem

4. Normalized Corpus DistanceSémantická aplikace

Page 25: Svět viděný kompresním algoritmem

Corpus Distance

Aplikace teorie informační vzdálenosti v NCD se omezuje pouze na řetězce, nikoli na ideje nebo pojmy. Proto se její autoři rozhodli příjít s metrikou, která toto omezení překračuje a tím je korpus World Wide Webu.

Podle Cilibrase je možné index vyhledávačů v případě uložení univerzální distribuce slov na stránkách a vyhledávač pak jako určitý druh pseudo-compressoru, který zohledňuje všechny dimenze lidského mínění.

Page 26: Svět viděný kompresním algoritmem

Corpus DistanceVitanyi s odkazem na Shannon-Fano code a uchopení indexu korpusu jako pseudo-compressoru pak formalizuje novou metriku takto:

Kde f(x) je počet stránek obsahující x, f(x,y) je počet stránek obsahující obojí a N je počet celkově indexovaných stránek.

Page 27: Svět viděný kompresním algoritmem

Corpus DistanceCilibrasi popisuje ve své dizertaci Statistical inference through data compression základní kontrast mezi oběma přístupy takto:

The first type is the NCD based on a literal interpretation of the data: the data is the object itself. The second type is the NGD masses of contexts expressing a large body of common-sense knowledge. It may be said that the first case ignores the meaning of the message, whereas the second focuses on it.

Page 28: Svět viděný kompresním algoritmem

Corpus DistanceSérie experimentu provedené Cilibrasem a Vitanyim pomocí výsledků vyhledávače Google přináší v tomto ohledu velmi uspokojivé výsledky.[15] Předmětem experimentů byly názvy díla holandský malířů 17. století, názvy anglických románů, čísla a barvy a názvy Shakespearových děl. Ve všech případech dokázal postup díla správně rozdělit. Předmětem experimentu byla i rekonstrukce vazeb vyjádřených experty ve WordNetu. Zde byla přesnost mezi NGD a vazbou ve WordNetu 0.8725.

Page 29: Svět viděný kompresním algoritmem

Mechanická Popelka

Page 30: Svět viděný kompresním algoritmem

4. Normalized Social DistancePragmatická rovina

Page 31: Svět viděný kompresním algoritmem

Social Distance

Pokud NWD přináší myšlenku sémantické vrstvy informací, lze se odvážit ještě o jednu vrstvu dál a to na vrstvu pragmatickou, opírající se o množství podobností, které jednotlivé sociální skupiny tvoří. A definovat formálně metodu počítání vzdálenosti mezi dvěma sociálními skupinami.

Page 32: Svět viděný kompresním algoritmem

Social DistanceFormálně vypadá takto:

Kdy f(x) je počet členů jedné subskupiny, f(y) je počet druhé subskupiny, f(x,y) vyjadřuje počet členů obou skupin a N je celkový počet členů skupiny.

Page 33: Svět viděný kompresním algoritmem

Social Distance

Takto formálně vyjádřená vzdálenost by měla být schopna měřit vzdálenost libovolných dvou sociálních subskupin, které jsou zastřešeny jednotnou skupinou.

Kupříkladu v případě bimodální sítě navštěvníků místních restaurací na malém městě by takto šla počítat bízkost sociální blízkosti podniků.

Page 34: Svět viděný kompresním algoritmem

NFD

NSD je ovšem metrika univerzální, kterou je možné přizpůsobit pro data ze sociálních sítí. V následujících případových studiích jsem ji aplikoval na případě sociální sítě Facebook v upravené podobě jako Normalized Facebook Distance (NFD), která počítá blízkost jednotlivých stránek na základě průniku jejich zapojených fanoušků.

Page 35: Svět viděný kompresním algoritmem

NFD

Pokud chápeme popis uživatele de facto jako síť rozdílu v preferovaných stránkách, nabízí se možnost nejen věnovat se celkové charakteristice fanoušků prostřednictvím distančního modelu, ale také jejich podrobnější charakteristice, přesněji nalezení zřetelně odlišených subskupin.

Page 36: Svět viděný kompresním algoritmem

NFD

Takováto matice je v podstatě bimodální sítí s relativně nízkou hustotou, zároveň ale může být podrobena některým klasickým exploračním technikám, jako je hierarchický klastering, multidimensionalní scaling či analýza základních komponent (PCA).

Page 37: Svět viděný kompresním algoritmem

NFD

Pro průzkum takových matic jsem vytvořil aplikace Facebook profiling, který má na vstupu dva soubory. První je tabulka s distančním modelem fanoušků a druhým pak binární matice obsahující na řádcích ID uživatelů a ve sloupcích pak stránky, v nichž se fanoušci zkoumané stránky nejčastěji zapojují svým like.

Page 38: Svět viděný kompresním algoritmem

Dělnická stranapřípadová studie

Page 39: Svět viděný kompresním algoritmem

DSSS

Stránka Dělnické strany sociální spravedlnosti, která je považována za tolerovanou formu neonacismu na české politické scéně. Minimální hranici pro průnik jsem v našem případě stanovili na 5% a blízkost menší než 0.7. V našem případě se jedná o data ze začátku roku 2014.

Distanční model stránky fanoušků aktivních na stránkách vypadá takto:

Page 40: Svět viděný kompresním algoritmem
Page 41: Svět viděný kompresním algoritmem
Page 42: Svět viděný kompresním algoritmem
Page 43: Svět viděný kompresním algoritmem
Page 44: Svět viděný kompresním algoritmem

Děkuji za pozornost@josefslerla

Page 45: Svět viděný kompresním algoritmem

A literatura?

Plánovaný výzkum v knihovnách, který klastruje knihy podle jejich čtenářů, stejně jako to doposud děláme na Facebook s fanoušky stránek.