Click here to load reader

Exposé segmentation

  • View
    296

  • Download
    1

Embed Size (px)

Text of Exposé segmentation

  • Clustering (Segmentation)

    Alya LETAIF

    Donia HAMMAMI

  • Plan de la prsentation

    1. Cest quoi la segmentation ?

    2. Quest ce quun bon regroupement ?

    3. Classification des algorithmes de clustering

    4. Mesure de similarit

    5. Prsentation de lalgorithme K-Means

    6. Domaine dapplication de lalgorithme K-Means

    7. Variantes de K-Means

    8. Organigramme de lalgorithme K-Means

    9. Algorithme K-Means

    10.Simulation de lalgorithme K-Means

    11.Avantages et Inconvnients de lalgorithme K-means

    12.Conclusion 2

  • Cest quoi la segmentation ?

    Regroupement (Clustering): construire une collection dobjets

    Similaires au sein dun mme groupe

    Dissimilaires quand ils appartiennent des groupes diffrents

    Pour cette tche, il n'y a pas de classe expliquer ou des valeurs prdire dfinies

    priori, il s'agit de crer des groupes homognes dans la population (l'ensemble des

    enregistrements).

    Le Clustering est de la classification non supervise: Elle vise identifier des

    ensembles dlments qui partagent certaines similarits. Elle ne se base pas sur des

    classes prdfinies.3

  • 4

    Quest ce quun bon regroupement ?

    Une bonne mthode de regroupement permet de garantir :

    Une grande similarit intra-groupe

    Une faible similarit inter-groupe

    La qualit dun regroupement dpend donc de la mesure de similarit utilise

    par la mthode et de son implmentation.

  • Mesure de similarit (1/3)

    Il ny a pas de dfinition unique de la similarit entre objets .

    Diffrentes mesures de distances d (x ,y).

    La dfinition de la similarit entre objets dpend de :

    Le type des donnes considres

    Le type de similarit recherche

    5

  • Mesure de similarit (2/3)

    Donnes Numriques :

    Distance de Minkowski:

    Distance euclidienne: q=2

    Distance de Manhattan : q=1

    6

  • Mesure de similarit (3/3)

    Donnes binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

    Donne numratives: Distance nulle si les valeurs sont gales et 1

    sinon.

    Donne numratives ordonnes: idem. On peut dfinir une distance

    utilisant la relation dordre.

    7

  • Classification des algorithmes de Clustering (1)

    Algorithmes Hirarchiques: Construisent les clusters en divisant de manire

    rcursive les instances. On a deux catgories :

    Segmentation hirarchique des divisions: chaque objet est initialement

    suppos un cluster.

    Segmentation hirarchique ascendante: tous les objets forment un seul

    cluster.

    Algorithmes bass sur la densit: Fonds sur des notions de connectivit et de

    densit. Les points qui appartiennent chaque groupe sont tirs d'une distribution de

    probabilit spcifique.

    Algorithmes de grille: Bass sur une structure multi-niveaux de granularit.8

  • Classification des algorithmes de Clustering (2)

    Algorithmes bass sur le modle: Un modle est suppos pour chaque cluster ensuite

    on vrifie chaque modle sur chaque groupe pour choisir le meilleur. Les modles les

    plus utiliss sont:

    Les arbres de dcision.

    Les rseaux de neurone.

    Algorithmes de Partitionnement: Consistent relocaliser les instances en les dplaant

    d'un cluster l'autre en partant dun partitionnement initial. De tels procds ncessitent

    que le nombre de cluster sera prdfinit par l'utilisateur. Parmi les algorithmes utiliss:

    Lalgorithme des K-moyennes (K-Means).

    9

  • Prsentation de lalgorithme K-Means

    Un algorithme de classification non supervise.

    Encore appele mthode des centres mobiles.

    Lalgorithme des K-moyennes permet de trouver des classes dans des donnes.

    Les classes quil construit nentretiennent jamais de relations hirarchiques: une classe

    nest jamais incluse dans une autre classe .

    Lalgorithme fonctionne en prcisant le nombre de classes attendues.

    Lalgorithme calcule les distances Intra-Classe et Inter-Classe.

    10

  • Domaines dapplication

    Marketing : Segmentation du march afin dobtenir des groupes de clients

    distincts partir dune base de donnes dachat.

    Assurance : Identification des groupes dassurs distincts associs un nombre

    important de dclarations.

    Planification des villes : Identification des groupes dhabitons suivant le type

    dhabitation, ville, localisation gographique

    Mdecine : Localisation de tumeurs dans le cerveau

    11

  • K-Means : Variantes

    Algorithme bas sur la slection des centres initiaux .

    Algorithme bas Calcul des similarits.

    Algorithme bas Calcul des centres.

    Algorithme GMM : Variante base sur les probabilits.

    Algorithme K-modes : Utilis pour les donnes catgorielles.

    Algorithme K-prototype: Utilis pour les donnes mixtes (numriques et catgorielles).

    12

  • Organigramme de lalgorithme K-Means

    13

  • Algorithme des k-moyennes (K-Means)

    Algorithme K-Means

    Entre : k le nombre de groupes cherchs

    DEBUT

    Choisir alatoirement les centres des groupes

    REPETER

    i. Affecter chaque cas au groupe dont il est le plus proche son centre

    ii. Recalculer le centre de chaque groupe

    JUSQUA (stabilisation des centres)

    OU (nombre d'itrations =t)

    OU (stabilisation de linertie totale de la population)

    FIN14

  • Simulation du k-Means (1/6)

    A B

    C

    D

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    0 1 2 3 4 5 6

    EFFICACIT

    CONCENTRATION

    4 types de mdicaments ayant

    chacun deux modalits : La

    concentration et lefficacit, on

    veut crer deux classes => K=2.

    Mdicaments Concentration Efficacit

    A 1 1

    B 2 1

    C 4 3

    D 5 415

  • Simulation du k-Means (2/6)

    Etape 1 : On dsigne alatoirement A et B

    comme centre de classes.

    C1 = A

    C2 = B

    Etape 2 : On assigne chaque point une

    des classes.

    On commence par D :

    A B

    C

    D

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    0 1 2 3 4 5 6

    EFFICACIT

    CONCENTRATION

    16

  • Simulation du k-Means (3/6)

    A B

    C

    D

    C2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    0 1 2 3 4 5 6

    EFFICACIT

    CONCENTRATION

    Etape 3 : Calcul les nouveaux centres des

    classes compte tenu de la nouvelle

    classification.

    17

  • Simulation du k-Means (4/6)

    Nous voil nouveau ltape 1.

    On commence la deuxime

    itration de lalgorithme.

    On rassigne chaque mdicament

    une classe en calculant la distance

    les sparant des nouveaux centres

    de classe .

    On repart ltape 2.

    A B

    C

    D

    C2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    0 1 2 3 4 5 6

    EFFICACIT

    CONCENTRATION

    18

  • Simulation du k-Means (5/6)

    On rpte les tapes jusqu

    convergence.

    Connaissant les membres de chaque

    classe, on recalcule les centres des

    classes pour chacun de leurs nouveaux

    membres. A B

    C

    D

    C2

    C1

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    0 1 2 3 4 5 6

    EFFICACIT

    CONCENTRATION

    19

  • Simulation du k-Means (6/6)

    Le rsultat final est donc:

    Classe1 = {A , B} avec centre de

    classe c1 = (1.5 , 1).

    Classe2 = {C , D} avec centre de

    classe c2 = (4.5 , 3.5). A B

    C

    D

    C2

    C1

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    0 1 2 3 4 5 6

    EFFICACIT

    CONCENTRATION

    20

  • K-moyennes : Avantages

    Lalgorithme de k-Means est trs populaire du fait quil est trs facile comprendre

    et mettre en uvre,

    La mthode rsolve une tche non supervise, donc elle ne ncessite aucune

    information sur les donnes,

    Rapidit et faibles exigences en taille mmoire,

    La mthode est applicable tout type de donnes (mmes textuelles), en choisissant

    une bonne notion de distance.

    21

  • Le nombre de classes est un paramtre de lalgorithme. Un bon choix du nombre k est

    ncessaire, car un mauvais choix de k produit de mauvais rsultats.

    Les points isols sont mal grs (doivent-ils appartenir obligatoirement un cluster ?)

    L'algorithme du K-Means ne trouve pas ncessairement la configuration la plus optimale

    correspondant la fonction objective minimale.

    Les rsultats de l'algorithme du K-Means sont sensibles l'initialisation alatoires des

    centres.

    K-moyennes : Inconvnients

    22

  • Conclusion

    Le clustering groupe des objets en se en basant sur leurs similarits.

    La mesure de similarit peut tre calcule pour diffrents types de donnes.

    La slection de la de mesure de de similarit dpend des des donnes utilises et le type

    de similarit recherche.

    La segmentation est utilise dans diffrents domaines de recherche tels que la bio-

    informatique, analyse financire, classification des squences d'ADN, gnie logiciel,

    locomotion de robots, etc

    23

  • Merci pour votre

    attention

Search related