View
9
Download
0
Category
Preview:
Citation preview
Analyse des problemes de fouille de donnees
Loıck Lhote, Francois Rioult, Arnaud Soulet
GREYC, universite de Caen Basse-Normandie
ALEA’06CIRM, Luminy
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 1 / 27
1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue
2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs
3 Modele pour l’analyse en moyenne
4 Hypotheses et Resultats
5 Conclusion et perspectives
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 2 / 27
Probleme : vision matricielle
Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)
les rectangles maximaux en hauteur de 1
les rectangles maximaux en hauteur et en largeur de 1
condition supplementaire : hauteur≥ γ
1
un zéro
au moins
par ligne
*
*
max
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27
Probleme : vision matricielle
Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)
les rectangles maximaux en hauteur de 1
les rectangles maximaux en hauteur et en largeur de 1
condition supplementaire : hauteur≥ γ
1
un zéro
au moins
par ligne
*
*
max 1
un zéro
au moins
par ligne
*
*
max
max
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27
Probleme : vision matricielle
Dans une matrice binaire, compter (a une permutation des lignes et des colonnes)
les rectangles maximaux en hauteur de 1
les rectangles maximaux en hauteur et en largeur de 1
condition supplementaire : hauteur≥ γ
1
un zéro
au moins
par ligne
*
*
max 1
un zéro
au moins
par ligne
*
*
max
max
1
un zéroau moins
par ligne
*
*
≥ γ
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 3 / 27
Probleme : vision graphes bipartites
Dans un graphe bipartite G = (S1,S2,E ), compter
les sous-graphes bipartites complets (S ′1,S′2,E
′) avec S ′2 maximum (ausens de l’inclusion)
les sous-graphes bipartites complets maximums
condition supplementaire : |S ′2| ≥ γ
maxi
colonnes lignes
maxi
colonnes lignes
maxi
colonnes lignes
≥ γ
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 4 / 27
Probleme : vision graphes co-bipartites
clique clique clique clique
graphe bipartite graphe co-bipartite separateur
Dans un graphe co-bipartite G = (S1,S2,E ), compter
les separateurs (S ′1,S′2,E
′) avec S ′2 minimum (au sens de l’inclusion)
les separateurs minimaux
condition supplementaire : |S ′2| ≤ n − γ (n = |S2|)
clique clique
mini
clique clique
mini mini ≤ n − γ
clique clique
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 5 / 27
Autres points de vue
matrice binaire n ×m=fonction de {1 . . . n} dans P({1 . . .m})→ ensembles (maximaux) dont l’intersection des images est de cardinal aumoins γ,
matrice binaire=hypergraphe→ ensembles (maximaux) de sommets contenus dans au moins γ hyperaretes,
. . .
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 6 / 27
1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue
2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs
3 Modele pour l’analyse en moyenne
4 Hypotheses et Resultats
5 Conclusion et perspectives
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 7 / 27
Motifs γ-frequents
attributsobj. a1 a2 a3 a4 a5 a6 a7
o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1
Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3
Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27
Motifs γ-frequents
attributsobj. a1 a2 a3 a4 a5 a6 a7
o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1
Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3
Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27
Motifs γ-frequents
attributsobj. a1 a2 a3 a4 a5 a6 a7
o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1
Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3
Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27
Motifs γ-frequents
attributsobj. a1 a3 a2 a4 a5 a6 a7
o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1
Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3
Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27
Motifs γ-frequents
attributsobj. a1 a3 a2 a4 a5 a6 a7
o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0 Motifs frequents=rectangleso4 1 0 0 1 0 1 0 maximaux en hauteuro5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1
Motifs= ensemble d’attributs (itemset)exemple : {a1, a3} = a1a3
Supp(M)= objets (transactions) ou il y a des 1 dans toutes les colonnes dumotif Mexemple : Supp(a1a3) = {o1, o3}M est un motif γ-frequent si |Supp(M)| ≥ γexemple : a1a3 est un motif 0,1 ou 2-frequent mais pas 3-frequent
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 8 / 27
Motifs γ-fermes
attributsobj. a1 a2 a3 a4 a5 a6 a7
o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1
M est un motif γ-ferme si
|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27
Motifs γ-fermes
attributsobj. a1 a2 a3 a4 a5 a6 a7
o1 1 0 1 0 1 0 0o2 0 1 1 0 1 0 0o3 1 0 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 1 0 1 0 0 1
M est un motif γ-ferme si
|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27
Motifs γ-fermes
attributsobj. a1 a3 a2 a4 a5 a6 a7
o1 1 1 0 0 1 0 0o3 1 1 0 0 1 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1
M est un motif γ-ferme si
|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit
exemple : a1a3 n’est pas un motif 0,1 ou 2-ferme
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27
Motifs γ-fermes
attributsobj. a1 a3 a5 a4 a2 a6 a7
o1 1 1 1 0 0 0 0o3 1 1 1 0 0 0 0o2 0 1 1 0 1 0 0o4 1 0 0 1 0 1 0o5 0 1 1 0 0 1 0o6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1
M est un motif γ-ferme si
|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit
exemple : a1a3 n’est pas un motif 0,1 ou 2-fermeexemple : a1a3a5 est un motif 0,1 ou 2-ferme
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27
Motifs γ-fermes
attributsobj. a1 a3 a5 a4 a2 a6 a7
o1 1 1 1 0 0 0 0o3 1 1 1 0 0 0 0o2 0 1 1 0 1 0 0 Motifs fermes=rectangleso4 1 0 0 1 0 1 0 maximaux en hauteuro5 0 1 1 0 0 1 0 et en largeuro6 0 1 1 0 0 1 0o7 1 0 0 1 0 0 1o8 0 0 1 1 0 0 1
M est un motif γ-ferme si
|Supp(M)| ≥ γet si tout sur-motif a un support strictement plus petit
exemple : a1a3 n’est pas un motif 0,1 ou 2-fermeexemple : a1a3a5 est un motif 0,1 ou 2-ferme
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 9 / 27
Treillis des motifs
Treillis des motifs 1-frequents
a1 a4a3a2 a5 a6 a7
a1a3 a1a4 a1a5 a1a6 a1a7 a2a3 a2a4 a2a5 a2a6 a2a7 a3a5 a3a6 a4a6 a4a7
a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7
∅
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27
Treillis des motifs
Treillis des motifs 1-fermes
∅
a1 a4a3a2 a6
a1a3 a1a4 a2a3 a2a7 a3a5 a4a7
a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27
Treillis des motifs
Treillis des motifs 1-fermes
∅
a1 a4a3a2 a6
a1a3 a1a4 a2a3 a2a7 a3a5 a4a7
a1a3a5 a1a4a6 a1a4a7 a2a3a5 a2a3a6 a2a4a7
probleme : taille du treillis ?
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 10 / 27
Utilisation des motifs
clustering : creation de classesexemple : regrouper des articles de journaux, proposer des pages web,. . .
classification : attribution d’une classeexemple : attribution d’un credit
regles d’associationsexemple : jambon, beurre ⇒ pain(80%)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 11 / 27
Fouille de donnees et algorithmique
La fouille de donnees : peu d’analyses en moyenne
Fouille de donnees Algorithmique• rectangles maximaux de 1
motifs frequents/fermes • sous-graphes bipartites complets maximaux• separateurs minimaux
bordure negative Traverses minimales d’hypergraphescomplexite ?
Algorithmes par niveaux • nb de motifs frequents+nb de motifs candidats
complexite ?Algorithmes en profondeur • structure arborescente
• techniques habituelles ?
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 12 / 27
1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue
2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs
3 Modele pour l’analyse en moyenne
4 Hypotheses et Resultats
5 Conclusion et perspectives
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 13 / 27
Pires et meilleurs des cas
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Meilleur des cas 0
nb de motifs frequents=O(1)nb de motifs fermes=O(1)
Pire des cas
1
0 1 . . . 1 1 . . . 1
1. . .
. . ....
......
.... . .
. . . 1...
...1 . . . 1 0 1 . . . 1
nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))
en realite ou plutot en moyenne ?
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27
Pires et meilleurs des cas
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Meilleur des cas 0
nb de motifs frequents=O(1)nb de motifs fermes=O(1)
Pire des cas
1
0 1 . . . 1 1 . . . 1
1. . .
. . ....
......
.... . .
. . . 1...
...1 . . . 1 0 1 . . . 1
nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))
en realite ou plutot en moyenne ?
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27
Pires et meilleurs des cas
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Meilleur des cas 0
nb de motifs frequents=O(1)nb de motifs fermes=O(1)
Pire des cas
1
0 1 . . . 1 1 . . . 1
1. . .
. . ....
......
.... . .
. . . 1...
...1 . . . 1 0 1 . . . 1
nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))
en realite ou plutot en moyenne ?
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27
Pires et meilleurs des cas
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Meilleur des cas 0
nb de motifs frequents=O(1)nb de motifs fermes=O(1)
Pire des cas
1
0 1 . . . 1 1 . . . 1
1. . .
. . ....
......
.... . .
. . . 1...
...1 . . . 1 0 1 . . . 1
nb de motifs frequents=O(2m) nb de motifs fermes=O(2min(m,n))
en realite ou plutot en moyenne ?
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 14 / 27
Modele aleatoire
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Condition 1 : Base rectangulaire
log m = Θ(log n)
Condition 2 : independance des lignes/objets
Les lignes/objets sont independants 2 a 2.
Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27
Modele aleatoire
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Condition 1 : Base rectangulaire
log m = Θ(log n)
Condition 2 : independance des lignes/objets
Les lignes/objets sont independants 2 a 2.
Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27
Modele aleatoire
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Condition 1 : Base rectangulaire
log m = Θ(log n)
Condition 2 : independance des lignes/objets
Les lignes/objets sont independants 2 a 2.
Condition 3 : Lignes/objets=mots produits par une source S sur l’alphabet{0, 1}.
Remarque
Les lignes sont independantes mais pas necessairement les colonnes.
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 15 / 27
1 Points de vue algorithmique du problemeVision matricielleVision graphes bipartitesVision graphes co-bipartitesAutres points de vue
2 Motivations en fouille de donneesMotifs frequents et motifs fermesTreillis des motifs
3 Modele pour l’analyse en moyenne
4 Hypotheses et Resultats
5 Conclusion et perspectives
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 16 / 27
Seuils de frequence
nombre de lignes/objets= n
nombre de colonnes/attributs= m
Trois type de seuils γ :
seuil lineaire : γ = r · n, r ∈]0, 1[Hypothese 1 ⇒ comportement polynomial des motifs frequents
seuil intermediaire : log n = o(γ)Hypothese 2 ⇒ Motifs frequents∼Motifs fermes
seuil fixe :Hypothese 3 ⇒ comportement exponentiel des motifs frequents
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 17 / 27
Resultat : seuil lineaire γ = r · n
Hypothese 1
n lignes et m colonnes
pour X un motif, on note pX la probabilite qu’une ligne (un objet) contiennele motif X .
Alors il existe K1 > 0 et θ1 < 1 tels que
∀X , pX ≤ K1θ|X |1 .
Theoreme 1 [L., Rioult, Soulet]
Le nombre de motifs (r · n)-frequents est au plus polynomial en le nombred’attributs (colonnes),
Freqr ·n = O
(mj
j!
), j =
⌊log r − log K1
log θ1
⌋.
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 18 / 27
Resultat : seuil intermediaire
seuil intermediaire : log n = o(γ)
Hypothese 2
n lignes et m colonnes
pour X un motif, on note pX la probabilite qu’une ligne (un objet) contiennele motif X .
Alors il existe K2 > 0 et θ2 < 1 tels que
∀X ,Y , X ( Y , |X | ≥ K2,pY
pX≤ θ2.
Hypothese 2 ⇒ Hypothese 1
Theoreme 2 [L., Rioult, Soulet]
Le nombre de motifs γ-frequents est equivalent au nombre de motifs γ-fermes,
Freqγ ∼ Fermγ
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 19 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat : seuil constant
Sous probleme : pour γ (ou γ + 1) executions independantes de S, quel est lenombre de colonnes de 1 ?
S : 1 1 1 1 . . .S : 0 1 1 1 . . .S : 0 1 1 1 . . .S : 1 1 0 1 . . .
S : 0γ 1γ 0γ 1γ . . .nombre d’occurences de 1 dans un mot de longueur m pour S.loi gaussienne pour les sources classiques (Em[C ] ∼ αm, Vm[C ] ∼ βm)serie generatrice
Sγ(z ,w) =∑
M∈{0γ ,1γ}?
pM ewC(M) z |M|
Si C (M) = k alors il y a 2k motifs γ-frequentsmeme serie avec w = log 2
Sγ(z) =∑
M∈{0γ ,1γ}?
pM 2C(M) z |M|
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 20 / 27
Resultat 3
Hypothese 3
On pose Si (z), pour i = γ ou γ + 1, la serie
Si (z) =∑
M∈{0i ,1i}?
pM 2C(M) z |M| :=∑m≥0
am,izm.
On suppose que Si (z) admet une unique singularite dominante zi avec
zi ∈]1
2, 1[ et zγ < zγ+1
Theoreme 3 [L., Rioult, Soulet]
Le nombre de motifs γ-frequents est asymptotiquement exponentiel en lenombre de colonnes et polynomial en le nombre de lignes,
Freqγ =
(n
γ
)am,γ [1 + O (n · θm)] , θ =
zγ + ε
zγ+1 − ε
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 21 / 27
Quels types de sources ?
sources de Bernoulli de parametre p
Hypothese 1 : pX = p|X |
Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :
Si (z) =1
1− z(1 + pi ), [zm]Si (z) = (1 + pi )m
Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1
Hypothese 1 : pX ≤ θ|X |2
Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2
Hypothese 3 :
[zm]Sγ(z) =mY
i=1
(1 + pγi ) ≥ (1 + θi
1)m
modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)
chaınes de markov (irreductibles et aperiodiques)
sources dynamiques (completes ou markoviennes)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27
Quels types de sources ?
sources de Bernoulli de parametre p
Hypothese 1 : pX = p|X |
Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :
Si (z) =1
1− z(1 + pi ), [zm]Si (z) = (1 + pi )m
Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1
Hypothese 1 : pX ≤ θ|X |2
Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2
Hypothese 3 :
[zm]Sγ(z) =mY
i=1
(1 + pγi ) ≥ (1 + θi
1)m
modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)
chaınes de markov (irreductibles et aperiodiques)
sources dynamiques (completes ou markoviennes)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27
Quels types de sources ?
sources de Bernoulli de parametre p
Hypothese 1 : pX = p|X |
Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :
Si (z) =1
1− z(1 + pi ), [zm]Si (z) = (1 + pi )m
Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1
Hypothese 1 : pX ≤ θ|X |2
Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2
Hypothese 3 :
[zm]Sγ(z) =mY
i=1
(1 + pγi ) ≥ (1 + θi
1)m
modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)
chaınes de markov (irreductibles et aperiodiques)
sources dynamiques (completes ou markoviennes)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27
Quels types de sources ?
sources de Bernoulli de parametre p
Hypothese 1 : pX = p|X |
Hypothese 2 : pour X ( Y , pY /pX ≤ p < 1Hypothese 3 :
Si (z) =1
1− z(1 + pi ), [zm]Si (z) = (1 + pi )m
Le ie symbole est 1 avec la probabilite pi avec 0 < θ1 < pi < θ2 < 1
Hypothese 1 : pX ≤ θ|X |2
Hypothese 2 : pour X ( Y , pY /pX ≤ p < θ2
Hypothese 3 :
[zm]Sγ(z) =mY
i=1
(1 + pγi ) ≥ (1 + θi
1)m
modeles groupes de Bernoulli pour les attributs qui s’excluent mutuellement(ex : petit, moyen grand)
chaınes de markov (irreductibles et aperiodiques)
sources dynamiques (completes ou markoviennes)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 22 / 27
Sources dynamiques completes
a b x
mot associé à x: babb....
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches fini
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
pX =
∫ 1
0
H ◦H1 ◦H ◦ . . . ◦H1 ◦H ◦H1 ◦H ◦H[f0](t)dt
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches fini
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
pX =
∫ 1
0
H ◦H1 ◦H ◦ . . . ◦H1 ◦H ◦H1 ◦H ◦H[f0](t)dt
pX ≤∫ 1
0
H ◦H1 ◦H ◦ . . .H1 ◦Hn0 [f0](t)dt
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches finiLhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
pX ≤∫ 1
0
H ◦H1 ◦H ◦ . . .H1 ◦Hn0 [f0](t)dt
pX ≤ (1 + ε)
∫ 1
0
H ◦H1 ◦H ◦ . . .H1[φ](t)dt
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches finiLhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
pX ≤ (1 + ε)
∫ 1
0
H ◦H1 ◦H ◦ . . .H1[φ](t)dt
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches fini
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
pX ≤ (1 + ε)
∫ 1
0
H ◦H1 ◦H ◦ . . .H1[φ](t)dt
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches fini
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes
deux branches inverses : h0 et h1
operateurs :
H0[f ](x) = |h′0(x)|f (h0(x)), H1[f ](x) = |h′1(x)|f (h1(x)), H = H0 + H1
si M = `1 . . . `m, branche inverse associee hM = h`1 ◦ . . . ◦ h`m
Hypothese 1 : pour un motif X
pX ≤ (1 + ε)
∫ 1
0
H ◦H1 ◦H ◦ . . .H1[φ](t)dt
On utilise recursivement
H1[φ](t) ≤ θ1φ(t), avec θ1 < 1.
On obtient pX ≤ (1 + ε)θ|X |−n0
1
Hypothese 2 : distorsion bornee des branches + nombre de branches fini
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 23 / 27
Sources dynamiques completes : hypothese 3
Operateurs :
H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))
H0[F ](x1, . . . , xγ) =∑
(`1,...,`γ) 6=(1,...,1)
|h′`1(x1)| . . . |h′`γ
(xγ)|F (h`1(x1), . . . , h`γ(xγ))
H = H0 + 2H1
Serie S(z)
Sγ(z) =
∫[0,1]γ
(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ
Unique pole simple en z = 1/λ(γ) avec
λ(γ) > λ(γ + 1) > 1
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27
Sources dynamiques completes : hypothese 3
Operateurs :
H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))
H0[F ](x1, . . . , xγ) =∑
(`1,...,`γ) 6=(1,...,1)
|h′`1(x1)| . . . |h′`γ
(xγ)|F (h`1(x1), . . . , h`γ(xγ))
H = H0 + 2H1
Serie S(z)
Sγ(z) =
∫[0,1]γ
(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ
Unique pole simple en z = 1/λ(γ) avec
λ(γ) > λ(γ + 1) > 1
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27
Sources dynamiques completes : hypothese 3
Operateurs :
H1[F ](x1, . . . , xγ) = |h′1(x1)| . . . |h′1(xγ)|F (h1(x1), . . . , h1(xγ))
H0[F ](x1, . . . , xγ) =∑
(`1,...,`γ) 6=(1,...,1)
|h′`1(x1)| . . . |h′`γ
(xγ)|F (h`1(x1), . . . , h`γ(xγ))
H = H0 + 2H1
Serie S(z)
Sγ(z) =
∫[0,1]γ
(I− zH)−1(x1, . . . , xγ)dx1 . . . dxγ
Unique pole simple en z = 1/λ(γ) avec
λ(γ) > λ(γ + 1) > 1
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 24 / 27
Schema de la preuve
Freqγ =∑
X∈{a1,...,am}∑n
i=γ
(ni
)pi
X (1− pX )n−i
Freqγ = γ(nγ
) ∑X∈{a1,...,am}
∫ pX
0tγ−1(1− t)n−γdt
(1− t)n−γ ≈ 1− (n − γ)t
seuil fixe seuil lineaire
fonction gamma incompletemethode de Laplace
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 25 / 27
Preuve : seuil fixe
Freqγ = γ
(n
γ
) ∑X⊂{a1,...,am}
∫ pX
0
tγ−1(1− t)n−γdt
(1− t)n−γ ≈ 1− (n − γ)t
Freqγ ≈(
n
γ
) ∑X⊂{a1,...,am}
pγX − (n − γ)
γ
γ + 1
(n
γ
) ∑X⊂{a1,...,am}
pγ+1X
Mais pγX s’ecrit aussi
pγX =
∑M1, . . . ,Mγ
Mi ∈ {0, 1}m
X ⊂ Mi
P(M1) . . .P(Mγ)
En inversant toutes les sommes,∑X⊂{a1,...,am}
pγX =
∑M1,...,Mγ
2|M1∩...∩Mγ |P(M1) . . .P(Mγ)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27
Preuve : seuil fixe
Freqγ = γ
(n
γ
) ∑X⊂{a1,...,am}
∫ pX
0
tγ−1(1− t)n−γdt
(1− t)n−γ ≈ 1− (n − γ)t
Freqγ ≈(
n
γ
) ∑X⊂{a1,...,am}
pγX − (n − γ)
γ
γ + 1
(n
γ
) ∑X⊂{a1,...,am}
pγ+1X
Mais pγX s’ecrit aussi
pγX =
∑M1, . . . ,Mγ
Mi ∈ {0, 1}m
X ⊂ Mi
P(M1) . . .P(Mγ)
En inversant toutes les sommes,∑X⊂{a1,...,am}
pγX =
∑M∈{0γ ,1γ}m
2C(M)P(M)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27
Preuve : seuil fixe
Freqγ = γ
(n
γ
) ∑X⊂{a1,...,am}
∫ pX
0
tγ−1(1− t)n−γdt
(1− t)n−γ ≈ 1− (n − γ)t
Freqγ ≈(
n
γ
) ∑X⊂{a1,...,am}
pγX − (n − γ)
γ
γ + 1
(n
γ
) ∑X⊂{a1,...,am}
pγ+1X
Mais pγX s’ecrit aussi
pγX =
∑M1, . . . ,Mγ
Mi ∈ {0, 1}m
X ⊂ Mi
P(M1) . . .P(Mγ)
En inversant toutes les sommes,∑X⊂{a1,...,am}
pγX = [zm]Sγ(z)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27
Preuve : seuil fixe
Freqγ = γ
(n
γ
) ∑X⊂{a1,...,am}
∫ pX
0
tγ−1(1− t)n−γdt
(1− t)n−γ ≈ 1− (n − γ)t
Freqγ ≈(
n
γ
) ∑X⊂{a1,...,am}
pγX − (n − γ)
γ
γ + 1
(n
γ
) ∑X⊂{a1,...,am}
pγ+1X
Mais pγX s’ecrit aussi
pγX =
∑M1, . . . ,Mγ
Mi ∈ {0, 1}m
X ⊂ Mi
P(M1) . . .P(Mγ)
En inversant toutes les sommes,
Freqγ ≈(
n
γ
)[zm]Sγ(z)− (n − γ)
γ
γ + 1
(n
γ
)[zm]Sγ+1(z)
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 26 / 27
Conclusion et perspectives
Trois resultats avec des conditions suffisantes :
seuil fixe : nombre exponentiel de motifs frequentsseuil intermediaire : equivalence entre motifs frequents et fermesseuil lineaire : nombre polynomial de motifs frequents
s’appliquent a toutes les sources classiques
modeles de bases de donnees non correlees
Perspectives :
Nombre de motifs fermes pour un seuil fixe ?analyses d’autres motifs (bordure negative, motifs candidats, motifs libres,. . . )analyses des algorithmes par niveaux et en profondeurtrouver des modeles plus realistescontraintes generalisees
Lhote, Rioult, Soulet (GREYC, Caen) Problemes de fouille de donnees ALEA’06 27 / 27
Recommended