Svět viděný kompresním algoritmem

Svět viděný kompresním algoritmem3. 11. 2015 Josef Šlerka Studia nových médií

Obsah

1. Kolmogorova komplexita

2. Syntaktická aplikace - kompresní algoritmy

3. Sémantická aplikace - corpus distance

4. Pragmatická aplikace - social distance

1. Kolmogorova komplexita algoritmická teorie informací informační vzdálenost

Kolmogorov a složitost

Teorie Kolmogorovy komplexity se snaží odpovědět na otázku “Co je nahodilý objekt?”

Představuje algoritmickou teorii informace a tvoří de facto doplněk teorie Shannona.

Složitost

Mějme k dispozici tři číselné řetězce v desítkové soustavě:

a) 3333333333

b) 3141596535

c) 84354279521

Který z nich bychom považovali za náhodný?

Složitost

Čím delší je popis postupu, který potřebujeme k popsání řetězce, tím je řetězec více komplexní. V Kolgomorově pojetí však nejde o popis v nějakém jazyce, ale existenci univerzalního počítačového stroje (Turingova stroje), který takový popis generuje, a délku tohoto programu.

Informační vzdálenost

Teorie informační vzdálenosti představuje rozšíření Kolmogorovy komplexity o myšlenku vzdálenosti mezi řetězci, respektive jejich podobnosti. Podle ní je minimální informační vzdálenost mezi dvěma instancemi (řetězce x a y) vyjádřená délkou nejkratšího programu, který transformuje jeden řetězec na druhý a naopak. Univerzální informační vzdálenost je vyjádřena pak vzorcem E(x,y) = max{K(x|y),K(y|x)}.

Informační vzdálenost

Vitányi a Cilibrasi od této myšlenky odvozují obecnou normalizovanou informační vzdálenost (normalized information distance), která by byla schopna produkovat i metrickou vzdálenost. Výsledkem je následující vzorec

2. Normalized Compression DistanceSyntaktická aplikace

NCDTeorie informační vzdálenosti je teoretická konstrukce, kterou není možné v praxi vytvořit, je totiž závislá na nespočitatelné funkci K. Je však možné použít jinou funkci, která se v reálném světě o podobnou funkčnost snaží. Těmito programy jsou dle autorů kompresní algoritmy, které mají za úkolu spočítat co největší bezztrátovou kompresi dat, tedy co největší redukci komplexit pomocí univerzálního programu.

NCD

Odpovídá to i zkušenosti, kterou máme z jejich každodenního používání. Pokud pomocí kompresního programu tzv. zabalíme dva soubory, které jsou si podobnější než jiné dva, rozdíl mezi výslednou délkou nového souboru a délkou odpovídající součtu délek původních souborů je menší.

NCD Komprese dat (také komprimace dat) je zpracování počítačových dat s cílem zmenšit jejich objem (jednotka bajt) při současném zachování informací v datech obsažených. Úkolem komprese dat je zmenšit datový tok při jejich přenosu nebo zmenšit potřebu zdrojů při ukládání informací. (Wikipedia)

Obvykle se snaží alg. nalézt opakující se sekvence znaků a vytvořit z nich slovník, který umožňuje odkaz na přesné místo.

Příklad komprese

P. Petyovský, Metody a algoritmy komprese dat. Od základních principů k aplikaci

NCDUpravený vzorec vypadá následovně:

Přičemž Z je kompresní algoritmus a x a y zůstávají řetězce určené k porovnání.

Formální důkazy Vitányiho a Cilibrase ukazují, že se jedná o plnohodnotnou distanční metriku.

NCDAutoři NCD provedli sérii testů navrženého postupu na celé řadě druhů řetězců (knihy, lidský genom, MIDI soubory), které se zdají potvrzovat univerzální charakter navrženého modelu a to včetně klasifikace heterogenních řetězců. Na vstupu v tomto experimentu byla data z genetiky, ukázky z literárních textů, MIDI soubory, binární počítačové programy a zkompilované programy ze zdrojových kodů programovacího jazky Java. Využit byl kompresní algoritmus bzip a metoda quartet clustering.

Originály

Překlady

Karel Čapek

Česká poesie

NCD

Experimenty dalších autorů potvrzují předchozí experimenty autorů, včetně předpokládané odolnosti NCD proti šumům v textu. Dále se věnují jeho dalším aplikacím například pro automatickou evaluaci strojového překladu. Další studie, za účasti autora původního týmu Paula Vitanyiho, pak sledují využití NCD při klastrování.

NCDv rámci semináře Digital Humanities provedli studenti Studia nových médií řadu experimentů, které naznačují univerzálnost postupu:

http://snm-blog.tumblr.com/post/42742243421/digital-humanities-6-complearn

http://janmarsicek.tumblr.com/post/44283514150/ncd-capek-macha-nemcova

http://jitkab.tumblr.com/post/38054898777/podobnost-seri%C3%A1l%C5%AF-podle-ncd

http://snm-blog.tumblr.com/post/42742243421/digital-humanities-6-complearn

http://janmarsicek.tumblr.com/post/44283514150/ncd-capek-macha-nemcova

http://jitkab.tumblr.com/post/38054898777/podobnost-seri%C3%A1l%C5%AF-podle-ncd

4. Normalized Corpus DistanceSémantická aplikace

Corpus Distance

Aplikace teorie informační vzdálenosti v NCD se omezuje pouze na řetězce, nikoli na ideje nebo pojmy. Proto se její autoři rozhodli příjít s metrikou, která toto omezení překračuje a tím je korpus World Wide Webu.

Podle Cilibrase je možné index vyhledávačů v případě uložení univerzální distribuce slov na stránkách a vyhledávač pak jako určitý druh pseudo-compressoru, který zohledňuje všechny dimenze lidského mínění.

Corpus DistanceVitanyi s odkazem na Shannon-Fano code a uchopení indexu korpusu jako pseudo-compressoru pak formalizuje novou metriku takto:

Kde f(x) je počet stránek obsahující x, f(x,y) je počet stránek obsahující obojí a N je počet celkově indexovaných stránek.

Corpus DistanceCilibrasi popisuje ve své dizertaci Statistical inference through data compression základní kontrast mezi oběma přístupy takto:

The first type is the NCD based on a literal interpretation of the data: the data is the object itself. The second type is the NGD masses of contexts expressing a large body of common-sense knowledge. It may be said that the first case ignores the meaning of the message, whereas the second focuses on it.

Corpus DistanceSérie experimentu provedené Cilibrasem a Vitanyim pomocí výsledků vyhledávače Google přináší v tomto ohledu velmi uspokojivé výsledky.[15] Předmětem experimentů byly názvy díla holandský malířů 17. století, názvy anglických románů, čísla a barvy a názvy Shakespearových děl. Ve všech případech dokázal postup díla správně rozdělit. Předmětem experimentu byla i rekonstrukce vazeb vyjádřených experty ve WordNetu. Zde byla přesnost mezi NGD a vazbou ve WordNetu 0.8725.

Mechanická Popelka

4. Normalized Social DistancePragmatická rovina

Social Distance

Pokud NWD přináší myšlenku sémantické vrstvy informací, lze se odvážit ještě o jednu vrstvu dál a to na vrstvu pragmatickou, opírající se o množství podobností, které jednotlivé sociální skupiny tvoří. A definovat formálně metodu počítání vzdálenosti mezi dvěma sociálními skupinami.

Social DistanceFormálně vypadá takto:

Kdy f(x) je počet členů jedné subskupiny, f(y) je počet druhé subskupiny, f(x,y) vyjadřuje počet členů obou skupin a N je celkový počet členů skupiny.

Social Distance

Takto formálně vyjádřená vzdálenost by měla být schopna měřit vzdálenost libovolných dvou sociálních subskupin, které jsou zastřešeny jednotnou skupinou.

Kupříkladu v případě bimodální sítě navštěvníků místních restaurací na malém městě by takto šla počítat bízkost sociální blízkosti podniků.

NFD

NSD je ovšem metrika univerzální, kterou je možné přizpůsobit pro data ze sociálních sítí. V následujících případových studiích jsem ji aplikoval na případě sociální sítě Facebook v upravené podobě jako Normalized Facebook Distance (NFD), která počítá blízkost jednotlivých stránek na základě průniku jejich zapojených fanoušků.

NFD

Pokud chápeme popis uživatele de facto jako síť rozdílu v preferovaných stránkách, nabízí se možnost nejen věnovat se celkové charakteristice fanoušků prostřednictvím distančního modelu, ale také jejich podrobnější charakteristice, přesněji nalezení zřetelně odlišených subskupin.

NFD

Takováto matice je v podstatě bimodální sítí s relativně nízkou hustotou, zároveň ale může být podrobena některým klasickým exploračním technikám, jako je hierarchický klastering, multidimensionalní scaling či analýza základních komponent (PCA).

NFD

Pro průzkum takových matic jsem vytvořil aplikace Facebook profiling, který má na vstupu dva soubory. První je tabulka s distančním modelem fanoušků a druhým pak binární matice obsahující na řádcích ID uživatelů a ve sloupcích pak stránky, v nichž se fanoušci zkoumané stránky nejčastěji zapojují svým like.

Dělnická stranapřípadová studie

DSSS

Stránka Dělnické strany sociální spravedlnosti, která je považována za tolerovanou formu neonacismu na české politické scéně. Minimální hranici pro průnik jsem v našem případě stanovili na 5% a blízkost menší než 0.7. V našem případě se jedná o data ze začátku roku 2014.

Distanční model stránky fanoušků aktivních na stránkách vypadá takto:

Děkuji za pozornost@josefslerla

A literatura?

Plánovaný výzkum v knihovnách, který klastruje knihy podle jejich čtenářů, stejně jako to doposud děláme na Facebook s fanoušky stránek.

Education

Svět viděný kompresním algoritmem