Aprendizado Semi-Supervisionado em Redes Complexas Fabricio
Breve ICMC USP
Slide 2
Contedo Introduo Aprendizado Semi-Supervisionado Classes de
Algoritmos Modelos Baseados em Grafos Construo do Grafo Mtodos
Iterativos Regularizao Modelo de Partculas
Slide 3
Introduo Redes a serem analisadas esto se tornando cada vez
maiores Internet World Wide Web (WWW) Sistemas de telecomunicaes
Redes de energia eltrica Redes sociais Redes de trfego Redes
biolgicas Redes neurais Redes de interao entre protenas
Slide 4
Introduo Freqentemente o processo de rotular dados : Caro
Demorado Requer o trabalho de um especialista humano Conseqncia: Em
muitas situaes, apenas um pequeno subconjunto de itens pode ser
rotulado
Slide 5
Introduo Aprendizado Supervisionado Apenas amostras rotuladas
so usadas para o treinamento Aprendizado No Supervisionado Todas as
amostras so no rotuladas Aprendizado Semi-Supervisionado Combina
uma pequena quantidade de amostras rotuladas com um grande nmero de
amostras no rotuladas para produzir melhores classificadores
Slide 6
Aprendizado Semi-Supervisionado Tipicamente o conjunto de dados
X pode ser dividido em duas partes: X l = (x 1,..., x l ), para
qual os rtulos Y l = (y 1,..., y l ) so fornecidos X u = (x
l+1,...,x l+u ), para qual os rtulos so desconhecidos
Slide 7
Aprendizado Semi-Supervisionado Quando funciona? Comparando com
um algoritmo supervisionado que usa apenas dados rotulados, podemos
esperar melhores resultados considerando as amostras no rotuladas?
Sim, desde que a distribuio dos dados (a ser revelada) seja
relevante para o problema de classificao.
Slide 8
Aprendizado Semi-Supervisionado Para funcionar algumas hipteses
precisam ser verdadeiras Hiptese da suavidade Se dois pontos x 1,x
2 em uma regio de alta- densidade esto prximos, ento suas sadas y
1, y 2 tambm devero ser prximas. Hiptese de cluster Se dois pontos
esto no mesmo cluster, ento provavelmente eles so da mesma classe.
No implica que cada classe apenas um cluster Pode ser considerado
um caso especial da hiptese da suavidade
Slide 9
Aprendizado Semi-Supervisionado Algumas aplicaes prticas: Em
reconhecimento de fala, custa quase nada gravar grandes quantidades
de dados, mas rotul-los requer que um humano oua e digite uma
transcrio. Bilhes de pginas esto diretamente disponveis para
processamento direto, mas para classific-las humanos tem de l-las.
Seqncias de protenas so fceis de adquirir em velocidade industrial
hoje em dia (por seqenciamento de genoma, busca computacional de
gene, e traduo automtica), mas resolver uma estrutura
tridimensional ou determinar as funes de uma simples protena pode
levar anos de trabalho cientfico. O. Chapelle, B. Schlkopf, and A.
Zien, Eds., Semi-Supervised Learning, ser. Adaptive Computation and
Machine Learning. Cambridge, MA: The MIT Press, 2006.
Slide 10
Classes de Algoritmos Auto Treinamento Modelos generativos
Separao de baixa densidade Mtodos baseados em grafos X. Zhu,
Semi-supervised learning literature survey, Computer Sciences,
University of Wisconsin- Madison, Tech. Rep. 1530, 2005. O.
Chapelle, B. Schlkopf, and A. Zien, Eds., Semi-Supervised Learning,
ser. Adaptive Computation and Machine Learning. Cambridge, MA: The
MIT Press, 2006.
Slide 11
Auto Treinamento 1. Um classificador treinado usando os poucos
dados rotulados. 2. Esse classificador usado para classificar os
dados no rotulados. 3. Os dados no rotulados mais confiveis e seus
rtulos preditos so adicionados ao conjunto de treinamento. 4. O
classificador re-treinado e o procedimento repetido. Tambm chamado
auto aprendizado ou bootstrapping Alguns algoritmos evitam que
erros de classificao sejam reforados desaprendendo dados rotulados
cuja confiana caia abaixo de um certo nvel.
Slide 12
Modelos Generativos Assumem um modelo p(x,y) = p(y) p(x|y) onde
p(x|y) uma distribuio identificvel, por exemplo Gaussiana Com um
grande nmero de dados no rotulados a distribuio pode ser
identificada; ento idealmente precisaramos apenas de uma amostra
rotulada por componente para determinar a distribuio
Slide 13
X. Zhu, Semi-supervised learning literature survey, Computer
Sciences, University of Wisconsin-Madison, Tech. Rep. 1530, 2005.
(a) dados rotulados (b) dados rotulados e no rotulados (pontos
pequenos) (c) modelo aprendido dos dados rotulados (d) modelo
aprendido dos dados rotulados e no rotulados Problema de
classificao binria, se assumimos que cada classe tem distribuio
Gaussiana, ento podemos usar dados no-rotulados para ajudar a
estimar os parmetros
Slide 14
Separao de Baixa Densidade Tentam empurrar a fronteira de
deciso para longe dos dados no rotulados Exemplo: Transductive
Support Vector Machines (TSVM)
Slide 15
Mtodos Baseados em Grafos rea de pesquisa mais ativa em
aprendizado semi-supervisionado. Dados so representados por ns de
um grafo, onde as arestas so rotuladas com a distncia entre os
pares de ns. Ns rotulados so usados para propagar informao de rtulo
para os demais. Mtodos assumem suavidade de rtulos atravs do
grafo.
Slide 16
Mtodos Baseados em Grafos X. Zhu, Z. Ghahramani, and J.
Lafferty, Semi-supervised learning using gaussian fields and
harmonic functions, in Proceedings of the Twentieth International
Conference on Machine Learning, 2003, pp. 912919. D. Zhou, O.
Bousquet, T. N. Lal, J. Weston, and B. Schlkopf, Learning with
local and global consistency, in Advances in Neural Information
Processing Systems, vol. 16. MIT Press, 2004, pp. 321328. [Online].
Available:
http://www.kyb.tuebingen.mpg.de/bs/people/weston/localglobal.pdf
http://www.kyb.tuebingen.mpg.de/bs/people/weston/localglobal.pdf X.
Zhu and Z. Ghahramani, Learning from labeled and unlabeled data
with label propagation, Carnegie Mellon University, Pittsburgh,
Tech. Rep. CMU-CALD-02-107, 2002. [Online]. Available:
http://citeseer.ist.psu.edu/581346.htmlhttp://citeseer.ist.psu.edu/581346.html
F. Wang and C. Zhang, Label propagation through linear
neighborhoods, IEEE Transactions on Knowledge and Data Engineering,
vol. 20, no. 1, pp. 5567, Jan. 2008. A. Blum and S. Chawla,
Learning from labeled and unlabeled data using graph mincuts, in
Proceedings of the Eighteenth International Conference on Machine
Learning. San Francisco: Morgan Kaufmann, 2001, pp. 1926. M.
Belkin, I. Matveeva, and P. Niyogi, Regularization and
semisupervised learning on large graphs, in Conference on Learning
Theory. Springer, 2004, pp. 624638. M. Belkin, N. P., and V.
Sindhwani, On manifold regularization, in Proceedings of the Tenth
International Workshop on Artificial Intelligence and Statistics
(AISTAT 2005). New Jersey: Society for Artificial Intelligence and
Statistics, 2005, pp. 1724. T. Joachims, Transductive learning via
spectral graph partitioning, in Proceedings of International
Conference on Machine Learning. AAAI Press, 2003, pp. 290297.
Slide 17
Mtodos Baseados em Grafos Seja um grafo G = (V,E), com V = {v
1,v 2,,v n }, onde cada n v i corresponde a uma amostra x i Uma
matriz de adjacncia W define quais ns da rede esto interconectados,
ou seja, ele identifica os ns em E w ij (e) pode ser um nmero real
que mede a similaridade entre i e j (por exemplo)
Slide 18
Mtodos de Construo do Grafo A matriz de pesos W pode ser dada
pelos k-vizinhos mais prximos W ij = 1 se x i est entre os
k-vizinhos mais prximos de x j ou vice-versa (e 0 caso contrrio)
Outra matriz de peso tpica dada pelo kernel Gaussiano de largura
(11.1)
Slide 19
Mtodos Iterativos Ns rotulados iniciam com seus respectivos
rtulos (1 ou -1) Ns no rotulados iniciam com 0 Ns propagam seus
rtulos repetidamente at convergncia Exemplo: X. Zhu and Z.
Ghahramani, Learning from labeled and unlabeled data with label
propagation, Carnegie Mellon University, Pittsburgh, Tech. Rep.
CMU-CALD-02-107, 2002. [Online]. Available:
http://citeseer.ist.psu.edu/581346.htmlhttp://citeseer.ist.psu.edu/581346.html
Slide 20
Mtodos Iterativos Alternativas: Forar W ii = 0 pode resultar em
melhores resultados Remover a linha 2 pode dar melhores resultados
quando as classes se sobrepem
Slide 21
Mtodos Iterativos D. Zhou, O. Bousquet, T. N. Lal, J. Weston,
and B. Schlkopf, Learning with local and global consistency, in
Advances in Neural Information Processing Systems, vol. 16. MIT
Press, 2004, pp. 321328. A cada passo um n i recebe a contribuio de
seus vizinhos j (ponderados pelo peso normalizado da aresta (i,j),
e uma pequena contribuio adicional de seu valor inicial
Slide 22
Classificao de padro com duas luas dado pelo modelo de Zhou et.
al. (2004). O processo de convergncia do algoritmo com t crescendo
de 1 a 400 mostrado de (a) at (d) Note que as informaes de rtulos
inicial difundida ao longo das luas.
Slide 23
Regularizao em Grafos O problema do aprendizado semi-
supervisionado em um grafo G consiste em encontrar um conjunto de
rtulos que seja consistente com ambos o conjunto de rtulos iniciais
(incompleto) e a geometria dos dados induzida pela estrutura do
grafo (arestas e pesos em W)
Slide 24
Regularizao em Grafos Consistncia com os rtulos iniciais:
Consistncia com a geometria dos dados com L = D W. Isto significa
que penalizamos mudanas rpidas em Y entre pontos que esto prximos
(dado pela matriz de similaridade W)
Slide 25
Regularizao em Grafos Vrios algoritmos so baseados nessas
consideraes X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised
learning using Gaussian fields and harmonic functions. In Twentieth
International Conference on Machine Learning, pages 912912,
Washington, DC, 2003b. AAAI Press. Fora os rtulos iniciais dos
dados rotulados Ento minimiza a funo de consistncia da geometria
em
Slide 26
Regularizao em Grafos Porm, quando h rudo nos rtulos
disponveis, pode ser benfico permitir que os dados rotulados sejam
re-rotulados. Tambm pode melhorar a generalizao mesmo quando no h
rudo Isto leva a um critrio de custo mais geral, envolvendo um
balano entre as duas equaes. M. Belkin, I. Matveeva, and P. Niyogi.
Regularization and semi-supervised learning on large graphs. In
Proceedings of the Seventeenth Annual Conference on Computational
Learning Theory, pages 624638, Banff, Canada, 2004b. O. Delalleau,
Y. Bengio, and N. Le Roux. Efficient non-parametric function
induction in semisupervised learning. In Artificial Intelligence
and Statistics, 2005. Um termo de regularizao pode ser
adicionado
Slide 27
Regularizao em Grafos A maioria dos mtodos iterativos tambm
pode ser visto como estimando uma funo f no grafo que satisfaa as
seguintes condies ao mesmo tempo: 1.Deve ser prximo dos rtulos
dados pelo ns pr-rotulados 2.Deve ser suave por todo o grafo. Isto
pode ser visto como um framework de regularizao onde o primeiro
termo uma funo de perda, e o segundo termo um regularizador.
Slide 28
Regularizao em Grafos Exemplo: O algoritmo Label Spreading (ou
Mtodo de Consistncia) equivale seguinte funo de custo: Onde >0 o
parmetro de regularizao. Ento a funo de classificao : D. Zhou, O.
Bousquet, T. N. Lal, J. Weston, and B. Schlkopf, Learning with
local and global consistency, in Advances in Neural Information
Processing Systems, vol. 16. MIT Press, 2004, pp. 321328.
Slide 29
Mtodos Baseados em Grafos Podem identificar diferentes
distribuies de dados A maioria deles compartilha de um framework de
regularizao, diferindo apenas na escolha particular da funo de
perda e do regularizador A maioria deles tem alta ordem de
complexidade computacional (O(n 3 )), limitando seu uso a base de
dados pequenas ou mdias. X. Zhu, Semi-supervised learning
literature survey, Computer Sciences, University of
Wisconsin-Madison, Tech. Rep. 1530, 2005.
Slide 30
Modelo de Partculas M. G. Quiles, L. Zhao, R. L. Alonso, and R.
A. F. Romero, Particle competition for complex network community
detection, Chaos, vol. 18, no. 3, p. 033107, 2008. [Online].
Available: http://link.aip.org/link/?CHAOEH/18/033107/ 1
http://link.aip.org/link/?CHAOEH/18/033107/ 1 Partculas caminham na
rede e competem com as outras de forma que cada uma tenta possuir a
maior quantidade de ns possvel Cada partcula tenta evitar que
outras partculas invadam seu territrio Finalmente, cada partcula
confinada dentro de uma comunidade na rede
Slide 31
Ilustrao do processo de deteco de comunidade pela caminhada
competitiva de partculas competitiva. O nmero total de ns N=128, o
nmero de comunidades M=4. A proporo de links externos z out / k =
0.2, e o grau mdio dos ns k=16. (a) Configurao inicial. Quatro
partculas representadas por amarelo, ciano, laranja e azul, so
colocadas aleatoriamente na rede. Vermelho representa ns livres.
(b) Um snapshot da iterao 250. (c) Um snapshot da iterao 3500. (d)
Um snapshot da iterao 7000.
Slide 32
Configurao Inicial Uma partcula gerada para cada n rotulado na
rede N-casa da partcula Partculas com o mesmo rtulo jogam pelo
mesmo time Ns tem um vetor de domnio Ns rotulados tem o domnio
configurado para seus respectivos times Ex: [ 1 0 0 0 ] (4 classes,
ns rotulados como classe A) Ns no rotulados tem nveis configurados
igualmente para cada time Ex: [ 0.25 0.25 0.25 0.25 ] (4 classes,
ns no rotulados) Posio inicial das partculas configurada para seus
respectivos ns-casa
Slide 33
Modelo de Partculas Semi- Supervisionado Competio e cooperao
entre partculas na rede Competio pela posse de ns da rede Cooperao
entre partculas do mesmo time (rtulo) Cada time de partculas tenta
dominar a maior quantidade de npos possvel de maneira cooperativa e
ao mesmo tempo evitar a invaso de partculas de outros times.
Caminhada Aleatria-Determinstica
Slide 34
Dinmica de ns Quando uma partcula seleciona um vizinho para
visitar: Ela diminui o nvel de domnio de outros times no n alvo.
Ela aumenta o nvel de domnio de seu prprio time no n alvo. Exceo:
Nveis de domnio de ns rotulados fixo. t t+1
Slide 35
Dinmica de Partculas Uma partcula se torna: Mais forte quando
ela tem como alvo um n dominado por seu time Mais fraca quando ela
tem como alvo um n dominado por outro time
Slide 36
4 2 Tabela de Distncia Mantm a partcula informada da distncia
de seu n-casa Evita que a partcula perca toda sua fora quando
andando em vizinhanas inimigas Mantm as partculas por perto para
proteger sua prpria vizinhana Atualizadas dinamicamente com
informao local No requer clculo a priori 0 1 1 2 3 3 4 4 ?
Slide 37
Caminhada de partculas Choques Uma partcula visita o n alvo
somente se o nvel de domnio de seu time maior que o dos outros;
Caso contrrio, um choque acontece e a partcula fica no n onde
estava at a prxima iterao. Como uma partcula escolhe um vizinho
como alvo? Caminhada aleatria Caminhada determinstica
Slide 38
Caminhada Aleatria-Determinstica Caminhada Aleatria A partcula
escolhe aleatoriamente um vizinho para visitar sem se preocupar com
nveis de domnio ou distncia Caminhada Determinstica A partcula
prefere visitar ns que seu time j domina e ns prximos de sua casa A
partcula precisa exibir ambos os movimentos para obter um equilbrio
entre comportamento exploratrio e defensivo
Slide 39
Probabilidades no Movimento Determinstico Probabilidades no
Movimento Aleatrio v1v1 v2v2 v3v3 v4v4 v2v2 v3v3 v4v4 v2v2 v3v3
v4v4
Slide 40
Algoritmo 1) Construir a matriz de adjacncia, 2) Configurar os
nveis de domnio, 3) Configurar posio inicial de partculas e seus
correspondentes ns-casa. Configurar fora da partcula e distncia, 4)
Repetir passos 5 a 9 at a convergncia ou at que um nmero
pr-definido de passos seja atingido, 5) Para cada partcula,
complete os passos 6 a 9, 6) Selecione o n alvo usando a regra
determinstica- aleatria, 7) Atualize os nveis de domnio do n alvo,
8) Atualize a fora da partcula, 9) Atualize a tabela de distncias,
10) Rotule cada n no rotulado de acordo com o time que tiver maior
domnio.
Slide 41
Fig. 1. Classificao de padres em forma de banana. (a) base de
dados com 2.000 elementos divididos em duas classes, 20 amostras so
pr- rotuladas (crculos vermelhos e quadrados azuis). (b)
classificao obtida pelo mtodo proposto.
Slide 42
Sada Fuzzy e Deteco de Outliers H casos comuns onde alguns ns
da rede podem pertencer a mais de uma comunidade Exemplo: Em uma
rede social de amizades, indivduos freqentemente pertencem a vrias
comunidades: suas famlias, seus colgas de trabalho, seus colegas de
escola, etc. Estes ns so chamados sobrepostos A maioria dos
algoritmos de deteco de comunidade no consegue detect-los
Slide 43
Sada Fuzzy e Deteco de Outliers Algoritmo de partculas padro
Nveis de domnio final definem os rtulos Bastante voltil em certas
condies Em ns sobrepostos o time dominante muda freqentemente Nveis
no correspondem medida de sobreposio Algoritmo modificado Nova
varivel: mdia dos nveis de domnio em cada n durante todo o tempo
Ponderado pela fora da partcula Considera apenas o movimento
aleatrio Agora o campeo no mais o time que ganhou os ltimos jogos,
mas sim o time que ganhou mais jogos durante todo o campeonato
Slide 44
Classificao fuzzy de classes em forma de banana geradas com
diferentes parmetros de varincia: (a) s = 0.6 (b) s = 0.8 (c) s =
1.0. Tamanho e cor dos ns representam seu respectivo ndice de
sobreposio.
Slide 45
Slide 46
Slide 47
Classificao de classes com distribuio normal (Gaussiana). (a)
base de dados com 1.000 amostras divididas em quatro classes, 20
amostras so rotuladas, 5 de cada classe (quadrados vermelhos,
tringulos azuis, losangos verdes e estrelas roxas). (b) tamanho e
cores dos ns representam o grau de sobreposio.
Slide 48
Slide 49
Comparativo entre o modelo padro e o modificado: (a) conjunto
de dados artificial com alguns ns com rtulo errado (b) classificao
pelo mtodo de partculas padro (c) classificao pelo modelo de
partculas modificado
Slide 50
Slide 51
Slide 52
Rede do clube de carat*. Tamanho e cores dos ns representam
seus respectivos ndices de sobreposio detectados pelo mtodo de
partculas. * W. W. Zachary, An information flow model for conflict
and fission in small groups, Journal of Anthropological Research,
vol. 33, pp. 452473, 1977.