Upload
buiphuc
View
215
Download
0
Embed Size (px)
Citation preview
26/04/2015
1
POLIMORFISMOSEESTUDOSDOGENOMA
JoséFranciscoDiogodaSilvaJunior– MestrandoCMANS/UECE
Relaçãogenótipo‐fenótipo
▪ Os polimorfismos surgem devido à mutação, normalmente devido
à uma má incorporação de um nucleotídeo durante a replicação,
ou por mutagênese química ou física.
▪ Variação na sequência de DNA:
▪ Mudança de apenas uma base no DNA,
▪ Pequenas inserções e deleções de um número de bases através de
expansões e contrações no número de repetições em tandem das
sequências de DNA,
▪ Inserções de elementos transpostos,
▪ Inserções, deleções e duplicações de segmentos de DNA,
▪ Mudanças no número de cromossomos (ALBERTS et al., 2010).
26/04/2015
2
Polimorfismosgênicos
▪ A presença, em uma população de dois ou mais formas
relativamente comuns de um gene ou cromossomo é chamado de
polimorfismo
▪ Um tipo prevalente de polimorfismo é uma diferença em um único
par de base, o polimorfismo de nucleotídeo único (SNP)
▪ Os SNPs em sítios de restrição formam polimorfismos de
comprimento de fragmentos de restrição (RFLP)
▪ Polimorfismos resultantes de uma sequência curta de DNA
repetida em tandem é chamada de sequência curta de repetição
(SSR)
3
Polimorfismosdenúmerodecópias(CNPs)
▪ Uma parte substancial do genoma humano pode ser duplicada ou
deletada em porções bastante largas, variando entre 1 kb até 1 Mb
▪ Esse tipo de variação é chamada de polimorfismos de número de
cópias (copy‐number polymorphism ‐ CNP)
▪ As cópias extras ou faltantes do genoma nos CNPs podem ser
detectadas por hibridação com oligonucleotídeos nos
microarranjos de DNA
4
26/04/2015
3
Polimorfismodenucleotídeoúnico(SNP)
▪ É a variação genética de apenas um nucleotídeo entre sequências
de DNA.
▪ 90% da variação genética humana é através dos SNPs.
▪ Um SNP ocorre aproximadamente a cada 300 bases no DNA. Isso
significa que há cerca de 10 milhões de SNPs entre os 3 bilhões de
nucleotídeos do genoma humano.
http://learn.genetics.utah.edu/content/pharma/snips/
SNP
94%
6%
C T T A G C T T
C T T A G T T T
MUTAÇÃO
99,9%
0,1%
C T T A G C T T
C T T A G T T T
Polimorfismodenucleotídeoúnico(SNP)
26/04/2015
4
NormalmRNA
Proteína
VariantemRNA
Proteína
A U G
Met
A A G
Lys
U U U
Phe
G G C
Gly
G C A
Ala
U U G
Leu
A A
Gln
C
A U G
Met
A A G
Lys
U U U
Phe
G G U
Gly
G C A
Ala
U U G
Leu
A A
Gln
C
G
Polimorfismodenucleotídeoúnico(SNP)
Relaçãogenótipo‐fenótipo
▪ Os polimorfismos de nucleotídeo único (single nucleotide
polymorphisms, SNPs) envolvem a substituição de apenas um
nucleotídeo em uma posição específica no genoma (ALBERTS et al.,
2010).
▪ Novos SNPs são continuamente gerados entre cada célula dos
organismos, porém a maioria é removida através da ação de
reparação de DNA durante a replicação (KUNKEL et al., 2005).
▪ Quando um SNP ocorre em pelo menos uma porcentagem
relativamente grande de uma população (em torno de 5% a 10%),
ele é considerado um SNP comum (BROOKES, 1999).
26/04/2015
5
Relaçãogenótipo‐fenótipo
▪ Os SNPs encontrados em regiões codificantes de um gene são
chamados de SNPs codificantes (cSNP).
▪ SNPs não sinônimos (nsSNPs) exercem um efeito na estrutura e/ou
na função de uma proteína por causa de uma substituição de um
aminoácido.
▪ SNPs codificantes não sinônimos incluem um grupo de SNPs que,
juntamente com os SNPs de regiões regulatórias, possuem o maior
impacto no fenótipo.
Polimorfismodenucleotídeoúnico(SNP)
▪ Os SNPs são espaçados de forma irregular em intervalos de 500 a
1000 bases
▪ Dois em cada três SNPs envolve a substituição da citocina (C) com a
timina (T)
▪ Os SNPs podem ocorrer tanto nas regiões codificantes como não
codificantes do genoma
▪ O SNP Consortium estima que até 300.000 SNPs podem ser
necessários para estudos
▪ Mais de 100.000 SNPs podem ser necessários para a descoberta de
genes de doenças complexas
26/04/2015
6
Polimorfismodenucleotídeoúnico(SNP)
▪ Um SNP geralmente é uma variável binária.
▪ A probabilidade de uma mutação se repetir no mesmo locus é
bastante pequena
▪ Casos de tri‐alelos são geralmente considerados ser efeito de erro na
genotipagem
▪ O nucleotídeo em um SNP é chamado de
▪ Alelo maior (se a frequência alélica é > 50%), ou
▪ Alelo menor (se a frequência alélica é < 50%)
94%
6%
C T T A G C T T C: alelo maior
C T T A G T T T T: alelo menor
TiposdeSNPs(SNPsnãocodificantes)
▪ 5’ UTR
▪ 3’ UTR
▪ Íntrons
▪ Regiões intergênicas
▪ Pseudogenes
▪ Regulatório
▪ Splicing
▪ Regulação transcricional (promoter e sítios de ligação dos FT)
▪ Regulação traducional (iniciação ou terminação)
▪ Sítios alvos regulatórios de miRNA
26/04/2015
7
TiposdeSNPs(SNPscodificantes)
▪ SNPs sinônimos (variação de terceira posição)
▪ SNPs de substituição (mudança de aminoácido)
▪ SNPs funcionais (substituição aceitável de aminoácido)
▪ SNPs não funcionais (traços e doenças)
atggacgtactggtg5’UTRTFBS
promoter
tctgagtgctccgcgGU AG 3’UTR
Transcrito tipo 1
M D V L V S E C S AProteína tipo 1
M D V L V S E S S AProteína tipo 2
1. Alterando a proteína codificada
2. Alterando o splicing3. Terminação prematura4. Regulação da transcrição
Transcrito tipo 2
Proteína tipo 3
Transcrito tipo 3
G/CG/TG/T
G/TA/G
Sítios de ligaçãoFat. transcrição
SNPspossuemváriasfunções
26/04/2015
9
Haplótipos
▪ Um haplótipo é um conjunto de SNPs ligados em um mesmo
cromossomo
▪ Um haplótipo poder ser considerado um conjunto binário já que cada
SNP é binário
Haplótipos
26/04/2015
10
Genetics HomeReference
http://ghr.nlm.nih.gov/
Penetrância eFatoresambientais
▪ Alta penetrância – doenças mendelianas de gene único
▪ Autossômico dominante, 100% de penetrância
▪ Anemia falciforme, daltonismo, fibrose cística
▪ Penetrância reduzida, alguns genes levam à predisposição à doença
▪ Genes BRCA1 & BRCA2 podem levarr à cancer de mama ou ovário
▪ Doenças complexas que necessitam de alelos em vários genes
▪ Câncer influenciado pelo ambiente (fumo, exposição aos raios UV)
▪ Aterosclerose (obesidade, genética e colesterol)
▪ Algumas doenças complexas possuem múltiplas causas
▪ Genética vs. ambiente vs. comportamento
▪ Algumas doenças complexas pode ser causadas por múltiplas vias metabólicas
▪ DMT2 – função reduzida das células‐β pancreática, produção reduzida da insulina, resistência à insulina, bem como condições ambientais (obesidade, sedentarismo, fumo, etc.)
26/04/2015
11
HerdabilidadedosSNPs
Manolio et al. Nature 461, 747‐753 (2009)
Anemia falciformeFibrose CísticaDaltonismo
Doenças complexas
Herdabilidadedealgumascondições
MANOLIO, T. A et al. Finding the missing heritability of complex diseases. Nature, v. 461, n. 7265, p. 747–753, 2009.
26/04/2015
12
Genesdeinteresseemnutrigenética
Doença Gene ou Loci
Diabetes, Tipo II CDKAL1, WFS1, KCNQ1, IL2Rα, JA2F1
Diabetes, Tipo II KIAA0350
Obesidade FTO, MC4R, PCSK1
Doença cardiovascular 6q25, 2q36
DHGNA PNPLA3
Dislipidemia MLX1PL
Hipercolesterolemia CELSR2
Hipertensão SLC12A3, SLC12A1,KCNJ1
Doença Celíaca IL‐2, IL‐21,
Colite ulcerativa ECM1, PTPN2, HERC2, STAT3
Doença de Crohn JAK2, CDKAL1, ITLN1, IRGM
ProjetoInternacionalHapMap
http://www.hapmap.org/
26/04/2015
13
EstudosdeAssociaçãoPan‐Genômica
(GWAS)
CatálogodeestudosGWAS
http://www.genome.gov/GWAStudies/
26/04/2015
15
EstudosdeAssociaçãopan‐genômica(GWAS)
▪ Busca por associações a partir de variantes
▪ Geração de dados em larga escala (high‐throughput)
▪ Geração de dados em larguíssima escala (next gen sequencing)
▪ Ferramentas analíticas de data mining
▪ Descoberta de novas relações biológicas
BILLINGS et al., 2010
EstudosdeAssociaçãopan‐genômica(GWAS)
▪ Os estudos de associação pan‐genômica, ou Genome‐wide
Association Studies (GWAS), examina as variações genéticas em
diferentes indivíduos para encontrar quais dessas variantes estão
associadas à fenótipo em particular.
▪ A variante mais comum utilizada pelo GWAS é o polimorfismo de
nucleotídeo único (SNP).
▪ Identifica regiões dos genes que podem predizer informações de
desequilíbrio de ligação comparado com o projeto HapMap.
National Human Genome Research Institute (2011)
26/04/2015
16
EstudosdeAssociaçãopan‐genômica(GWAS)
▪ Geralmente analisa de 100.000‐1.000.000 de SNPs no genoma.
▪ Cobre aproximadamente 80% do genoma.
▪ Aproximadamente 1.200 GWAS foram feitos sobre mais de 200
doenças e traços e foram encontrados mais de 4.000 associações
de SNPs.
https://www.genome.gov/
AbordagemGWASparadoençascomplexas
▪ Identificação de todos os 10 milhões de SNPs comuns.
▪ Coleta de 1.000 casos e 1.000 controles.
▪ Genotipagem de todo o DNA para todos os SNPs.
▪ 20 bilhões de genótipos.
▪ Em 2002, essa abordagem custava US$ 0,50 por genótipo.
▪ Isso daria US$ 10 bilhões para cada doença – impraticável.
COLLINS, et al. JAMA. 2008;299(11):1351‐1352
26/04/2015
17
AbordagemGWASparadoençascomplexas
▪ Identificação de um conjunto de 300.000 tag SNPs.
▪ Coleta de 1.000 casos e 1.000 controles.
▪ Genotipagem de todo o DNA para todos os SNPs.
▪ 600 milhões de genótipos.
▪ Em 2008, o custo da genotipagem caiu para US$ 0,0010,
totalizando US$ 600.000 para cada doença.
COLLINS, et al. JAMA. 2008;299(11):1351‐1352
CustodosequenciamentodeDNA
▪ Sequenciamento de nova geração: US$ 1.000 e 1‐2 semanas
0,01
0,10
1,00
10,00
100,00
1.000,00
10.000,00
0,001
2003 2005 2011
Custo por genoma (US$ milhões)
100.000,00
Projeto Genoma Humano
13 anosUS$ 3.000.000.000,00
Next Generation Sequencing
Tempo de sequenciamento
meses
semanas
anos
26/04/2015
19
Estudos GWAS publicados, 2005 – 6/2012Número Total de Publicações
0
200
400
600
800
1000
1200
1400
2005 2006 2007 2008 2009 2010 2011 2012
1350
www.genome.gov/GWAStudies
Manolio T. N Engl J Med 2010;363:166‐176
26/04/2015
21
EstudosdeAssociaçãopan‐genômica(GWAS)
Escanear o genoma- 500.000 SNPs
Identificar as regiões de interesse, examinaros genes, a densidadedos SNPs, regiõesregulatórias, etc.
Replicar os achados
* *
***
EstudosdeAssociaçãopan‐genômica(GWAS)
Hirschhorn & Daly, Nat Rev Genet (2005)
Locus diretamente genotipado
Gene Candidato ou GWAS
Associação direta Associação indireta (guilt by association)
Marcador relacionado com o locus da doença
26/04/2015
22
DesequilíbriodeLigaçãoeAssociaçãoalélica
▪ Marcadores próximos nos cromossomos são normalmente transmitidos em conjunto, produzindo uma correlação entre os alelos. Esse fenômeno é chamado de Desequilíbrio de Ligação
▪ Isto é importante para a associação alélica porque significa que não é necessário acessar a variante etiológica exata, mas procurar por associação em um tag‐SNP com uma variante próxima.
Marcador1 2 3 n
LD
D
Desequilíbriodeligação
26/04/2015
23
Desequilíbriodeligação
Figura: http://www.molvis.org/molvis/v14/a205/images/mv‐v14‐1727‐f2.jpg
EstudosdeAssociaçãopan‐genômica(GWAS)
Manolio T. N Engl J Med 2010;363:166‐176
26/04/2015
24
AnálisegenéticadeSNPsrelacionadoscomDCV
DCV – doença cardiovascular
Fator de risco para DCV Gene SNPs Genótipo
Lipídios APOAI ‐75G→A GA
Lipídios APOC3 3175C→G GG
Lipídios APOE ε2, ε3, ε4 2, 3
Lipídios CETP 279G→A GG
Pressão arterial ACE Ins/Del ID
Pressão arterial AGT ‐6C→A AA
Inflamação IL1B ‐511C→T TT
Inflamação IL6 ‐174G→C GC
Metilação (folato) MTHFR 677C→T TT
Metilação (B12) TCN2 776C→T CT
Food and nutrition in 21st century, Warsaw, 8‐9.09.2011
EstudosdeAssociaçãodeMóduloGênico(GMAS)
26/04/2015
25
EstudodeAssociaçãodeMóduloGênico(GMAS)
▪ Difícil análise genética de fenótipos multifatoriais
▪ Expressão gênica
▪ Variantes polimórficas (SNPs e CNVs) dos genes de interesse
▪ Frequências alélicas
▪ Anormalidades cromossômicas
▪ Dieta e fatores ambientais e comportamentais
▪ Alterações epigenéticas (metilação de DNA)
DAI et al., 2013; MOORE et al., 2013
EstudodeAssociaçãodeMóduloGênico(GMAS)
▪ GWAS vs. GMAS
▪ Métodos reducionistas da complexidade e do volume
▪ Módulos Eigengenes
▪ Representam grupos gênicos baseados em redes de interação
▪ Combinação linear normalizada de genes com a maior variância em
uma população
LANGFELDER et al., 2007; WEISS et al., 2012
26/04/2015
26
Eigengenes
▪ Representam as expressões características de módulos
▪ Associações ponderadas representam as relações entre os
módulos
▪ Redes eigengenes fornecem um quadro natural de relações entre
módulos gênicos e traços clínicos
LANGFELDER; HORVATH, 2007; WEISS et al., 2012
Coexpressãogênica
▪ Comparação entre tecidos, linhagens, indivíduos, amostras
▪ Coeficiente da correlação de Pearson (‐1 até 1)
▪ Base da construção da rede ponderada
Figura 2. Modelo de forte co‐expresão entre dois genes (A e B) Fonte: ATTED v7.1(http://atted.jp/overview.shtml)
26/04/2015
27
Módulosdecoexpressão
▪ Agrupamentos de genes com o padrão de expressão semelhante
▪ Pode fornecer informações cruciais na compreensão dos sistemas
biológicos complexos
KINOSHITA; OBAYASHI, 2009
Figura 3. Visualização gráfica de redes de coexpressão de genes humanos.A figurainclui 615 genes‐nós e 2190 ramos de coexpressão numa rede produzida no formatoCytoscape com anotações completas sobre os 615 genes Fonte: PRIETO et al., 2008
26/04/2015
28
EstudodeAssociaçãodeMóduloGênico(GMAS)
▪ Ampliação de estudos do tipo GWAS
▪ Cenário de como os grupos de genes funcionam em conjunto
▪ “Soluções boas o suficiente”
▪ Suscetibilidade às doenças comuns pode ser bem mais relacionada à
maneira pela qual os genes normais interagem uns com os outros do
que com efeitos adicionais de múltiplas mutações gênicas
WEISS et al., 2012
RedesPonderadasdeEigengenes
▪ Maneira de reduzir a complexidade da análise gênica
▪ A ideia é tratar da relação entre os eigengenes no lugar de todos os genes
▪ Maior facilidade para testar a associação dos eigengenes com os
fenótipos de interesse
▪ O padrão eigengene deve ser capaz de predizer uma resposta
fenotípica
WEISS et al., 2012
26/04/2015
29
Construir a redeFerramentas: correlação de Pearson, limiar frouxoJustificativa: usar os padrões de interação entre genes
Identificar os módulosFerramentas: TOM, clustering hierárquicoJustificativa: análise baseada em módulo ou pathway
Achar o representativo de cada móduloFerramentas: eigengene (1o Componente Principal) Justificativa: Condensar cada módulo num só perfil
Análise Posterior
módulo de relações, módulo de significância de traços, análise causal
Construindoumarededecoexpressão
▪ Gerar/obter dados de expressão por microarray
▪ Fazer filtração preliminar
▪ Mensurar a concordância dos perfis de expressão de genes pela
correlação de Pearson
▪ A matriz de correlação de Pearson deve ser continuamente
considerando a função de adjacência → rede ponderada