13
Shlukovací algoritmy založené na vzorkování Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady

Shlukovací algoritmy založené na vzorkování

  • Upload
    charis

  • View
    32

  • Download
    0

Embed Size (px)

DESCRIPTION

Shlukovací algoritmy založené na vzorkování. Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady. Motivace. Potřeba metod pro analýzu dat velkých datových souborů - PowerPoint PPT Presentation

Citation preview

Page 1: Shlukovací algoritmy  založené na vzorkování

Shlukovací algoritmy založené na vzorkování

Marta Žambochová

Katedra matematiky a statistikyFakulta sociálně ekonomická

Univerzita J. E. Purkyně v Ústí nad Labem

3.– 5. června 2012Nové Hrady

Page 2: Shlukovací algoritmy  založené na vzorkování

Motivace

• Potřeba metod pro analýzu dat velkých datových souborů

• Minimalizace počtu průchodů celým datovým souborem

• Výběr vzorku dat

Page 3: Shlukovací algoritmy  založené na vzorkování

Algoritmy využívající ke vzorkování stromy

• CLARANS (pro velké datové soubory)(Clustering Large Application based on RANdomized Search)

• BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)

• SCAHIPAT (Spatial Clustering Algorithm Based on Hierarchical-Partition Tree)

Page 4: Shlukovací algoritmy  založené na vzorkování

CLARANS (pro velké soubory)

• R*- stromy 8 293

1 2 4 6 7 9 15 26 30 35 40 43

Page 5: Shlukovací algoritmy  založené na vzorkování

CLARANS

• náhodný výběr k medoidů • přiřazení zbývajících objektů k jim nejbližšímu

medoidu • náhodný výběr jednoho zástupce z medoidů a

náhodný výběr jednoho z objektů zkoumaného souboru, který není medoidem

• zjištění, zda by záměnou těchto dvou objektů došlo ke zlepšení

• pokud by ke zlepšení došlo, provede záměnu

Page 6: Shlukovací algoritmy  založené na vzorkování

BIRCH

• CF - stromy

Page 7: Shlukovací algoritmy  založené na vzorkování

BIRCH

• vytvoření CF-stromu postupným zařazením datových objektů

• kondenzace vytvořeného CF-stromu a optimalizace jeho velikosti

• shlukování listových vrcholů pomocí aglomerativního hierarchického algoritmu shlukování

• (přerozdělení objektů k jejich nejbližším centrům, a tím získání nového složení shluků)

Page 8: Shlukovací algoritmy  založené na vzorkování

SCAHIPAT

• H-P stromy (Hierarchical-Partition Tree)

Page 9: Shlukovací algoritmy  založené na vzorkování

SCAHIPAT

• vytvoření H-P stromu

• výpočet statistik (hustota, hranice) pro každou podmnožinu

• spojování vhodných podmnožin

• vyřazení objektů, které jsou podezřelé z odlehlosti

Page 10: Shlukovací algoritmy  založené na vzorkování

Algoritmy nevyužívající ke vzorkování stromy

• BIRCH k-průměrů

• FEKM (Fast and Exact K-Means)

Page 11: Shlukovací algoritmy  založené na vzorkování

BIRCH k-průměrů

• Shluky (skupiny) objektů • Upravená varianta algoritmu BIRCH• Nevytváří CF-strom • Uspořádaná trojice údajů (m, q, b), kde m je velikost

daného shluku, q je kvalita daného shluku (součet druhých mocnin vzdáleností centroidu od všech objektů ve shluku) a b je centroid shluku

Page 12: Shlukovací algoritmy  založené na vzorkování

FEKM

• Náhodný výběr

• Postup zpracování:• Prvotní vytvoření přiměřeně velkého výběrového souboru z původního souboru dat • V rámci tohoto souboru jsou vytvořeny shluky pomocí klasického algoritmu k-průměrů• V každé iteraci se zaznamená všech k center a k nim popisné statistiky• V druhé fázi algoritmus prochází celý datový soubor • Každý datový objekt se přiřadí do určitého shluku (k nejbližšímu centru)• Problém chybného zařazení do shluku se týká především objektů ležících na okraji

shluků • Ve třetí fázi se algoritmus zabývá podezřelými okrajovými body, které odhalila

a uložila předchozí fáze • Provádí se přepočet s využitím uložených statistik popisujících každý jednotlivý shluk

a podezřelých okrajových objektů. • Pokud existuje přepočtené centrum, které je od původního více vzdálené, než

předem zadaná kritická hodnota, vrací se algoritmus do druhé fáze a probíhá opětovný průchod celým datovým souborem

Page 13: Shlukovací algoritmy  založené na vzorkování

Shrnutí

• Nevýhoda většina zmíněných algoritmů =vzorkování přináší zhoršenou kvalitu shlukování

• Nevýhoda algoritmu FEKM =malý počet průchodů celým souborem pouze ve výjimečných případech, závisí na prvotním vzorku dat

• Bylo by možné zkombinovat některý z uvedených algoritmů s algoritmem FEKM tak, aby bylo dosaženo lepších výsledků?