View
3
Download
0
Category
Preview:
Citation preview
SEQUENCIAMENTO E BANCO DE DADOS BIOLÓGICOS
Gabriel Dequigiovanni Departamento de Genéticagabriel.dequi@gmail.com
1866 Gregor Mendel – Leis da Hereditariedade
1903 Walter Sutton – Cromossomos, unidades hereditárias
1913 Thomas Morgan – Cromossomos, arranjos lineares
1944 DNA material genético em todos os seres vivos - Avery, McCarty, McLeaod, Griffith’s
1945 Um gene codifica uma proteína, Beadle, Tatum
1953 Dupla hélice do DNA (Watson & Crick)
1960s Elucidação do código genético
1977 Sequenciamento do DNA (Fred Sanger)
1983 PCR – Kary Mullis
1995 Primeiro genoma de bactéria sequenciado (Haemophilus
influenza)
1998
1999 Primeiro cromossomo humano sequenciado
(cromossomo 22)
2000 Genomas Drosophia / Arabidopsis / Xylella
2001 Genomas humano e camundongo
2003 99% genoma humano
2004 Metagenômica (Environmental genomics)
2005 Sequenciar um genoma de procarioto por US$1 000.
2007 DNA de James Watson sequenciado
2009 Sequenciar seu próprio genoma por US$ 50 000.
LOUSA
Animação!
http:/www.dnalc.org/ddnalc/resources/sangerseq.html
LASER
Detecção
a laser
Animação!
http:/www.dnalc.org/ddnalc/resources/cycseq.html
ABI 3700 Applied Biosystems - ~150.000 bases/dia
3730 – Applied Biosystems – ~1.000.000 bases/dia
454 – Roche – ~100 M bases/7,5 h
SOLiD – Applied Biosystems –~3 000 M bases/corrida/ 6 dias (3 bilhões)
Solexa – Illumina – ~2 000 M bases/corrida /6,5 dia (2 bilhões)
Plataformas modernas para sequenciamento
HiSeq 2500 Illumina
454 Roche
Ion Torrent Life Technologies
NGS (Next-Generation Sequencing)
• Transição para NGS
De uma pequena quantidade de sequências maiores para muitas sequências
pequenas “massively parallel sequencing”
Maior capacidade geral de sequenciamento
Aumento da complexidade computacional
Sequências curtas
Resulta em bilhões de bases sequenciadas em centenas de milhões de
fragmentos
NGS (Next-Generation Sequencing)
Um único equipamento de nova geração faz o mesmo trabalho que 30 mil
sequenciadores do modelo usado em 2000!
Por outro lado, essas milhões de bases lidas estão em fragmentos muito pequenos
que, para a montagem de um genoma completo, têm de ser concatenados como em
um quebra-cabeça gigantesco.
Preparação do DNA
Reação de sequenciamento
Eletroforese capilar
Análise computacional
ETAPAS DO SEQUENCIAMENTO DE DNA
FRAGMENTOS DE DNA SEQUENCIADOS
FRAGMENTOS COMPLETOS
Biblioteca de insertos pequenos
Montagem dos fragmentos
Fechamento dos gaps
Análise
E porque não usamos só o PAC BIO?
BIOINFORMÁTICA
- Bancos de Dados Biológicos
A bioinformática consiste no desenvolvimento demétodos computacionais, matemáticos e estatísticospara organizar e analisar informações biológicas emgrande escala e de maneira integrada.
Organizaçãoe Armazenamento
Visualização e Análise
- Ferramentas computacionais- Compreensão do significado biológico
Você toparia?
Craig Venter
James WatsonNeanthertal
Desmond Mpilo Tutu (1931-) arcebispo e
ativista dos direitos humanos. Nobel da paz em
1994.
430.000 anos
2019
Arroz
Arabdopsis
Milho
Soja
Tomate
Poplar Genome Sequenced and Published; Model Crop for Biofuels
BANCO DE DADOS BIOLÓGICOS
Nucleotídeos :
– International Collaboration• NCBI(EUA), EMBL(Europa), DDBJ (Japão)
– Organismo-específico • http://flybase.org/
• http://poultry.mph.msu.edu/
• http://www.maizegdb.org/
• http://rice.plantbiology.msu.edu/
• http://www.yeastgenome.org/
• http://soybeangenome.siu.edu/
• http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
JapanCIB/NIG
USANCBI/NLM
EuropeEBI/EMBL
INSDChttp://www.insdc.org/
Public Collections of DNA and RNA Sequences: Alcançou 100 Gigabases!!!! (August, 2005)
> 300,000 species;whole genome of over 1,500 organisms.
Public Collections of DNA and RNA Sequences: Alcançou 300 Gigabases!!!! (August, 2011) -199,575,971 entries
Sequenciamento de genomas:
BANCOS DE DADOS MUNDIAIS
Atualizações diárias
Troca de informações
BANCOS DE DADOS MUNDIAIS
National Center for Biotechnology Information (NCBI)
http://www.ncbi.nlm.nih.gov/
ENTREZ: ferramentade busca do banco de dados do NCBI
PubMed: artigoscientíficos
Taxonomy Browser: classificação taxonômica de organismos
FERRAMENTAS
http://www.ncbi.nlm.nih.gov/Database/index.html
ESTRUTURA DO GENBANK
Só o NCBI não seria suficiente?
Porque existe outros bancos?
Homo sapiens BRCA1
http://www.ncbi.nlm.nih.gov/Database/index.html
https://www.ncbi.nlm.nih.gov/nuccore/AH003701.2
>gi|226347322|gb|FJ830553.1| Anabaena planctonica CENA210 ribulose-1,5-
bisphosphate carboxylase/oxygenase large subunit (rbcL) gene, partial cds
CCGGCGAAATTAAAGGTCACTACCTCAACGTTACCGCTCCTACCTGCGAAGAAATGTTGAAACGGGCTGA
GTACGCTAAAGAACTCAAAATGCCCATCATCATGCACGACTACCTAACCGCAGGTTTCACCGCTAACACC
ACATTGGCTCGTTGGTGTCGTGATAACGGTATTTTATTGCACATTCACCGTGCTATGCACGCTGTAATTG
ACCGTCAAAAAAATCACGGTATCCACTTCCGCGTATTAGCTAAAGCCCTCCGCTTGTCCGGTGGTGATCA
CATCCACACTGGTACAGTTGTTGGTAAGTTAGAAGGTGAACGCGGTATTACCATGGGCTTCGTTGACTTA
TTACGTGAAAACTACGTTGAGCAAGACAAGTCTCGCGGTATTTACTTTACCCAAGATTGGGCGTCTCTAC
CTGGTGTAATGGCCGTTGCTTCTGGTGGTATCCACGTATGGCATATGCCCGCGTTGGTTGAGATCTTCGG
TGATGACTCCGTATTACAATTCGGTGGTGGTACACTCGGACATCCTTGGGGTAACGCTCCTGGTGCTACA
GCTAACCGCGTAGCTCTAAAAGCAGTTGTTCAAGCTCGTAACGAAGGCCGTAACTTAGCTCGTGAAGGTA
ACGATATTATCCGCGAAGCTGCTAAGTGGTCTCCTGAGTTGGCTGTTGCTTGCGAACTG
>gi|226347323|gb|ACO50079.1| ribulose-1,5-bisphosphate
carboxylase/oxygenase large subunit [Anabaena planctonica CENA210]
GEIKGHYLNVTAPTCEEMLKRAEYAKELKMPIIMHDYLTAGFTANTTLARWCRDNGILLHIHRAMHAVID
RQKNHGIHFRVLAKALRLSGGDHIHTGTVVGKLEGERGITMGFVDLLRENYVEQDKSRGIYFTQDWASLP
GVMAVASGGIHVWHMPALVEIFGDDSVLQFGGGTLGHPWGNAPGATANRVALKAVVQARNEGRNLAREGN
DIIREAAKWSPELAVACEL
Formato FASTA: formato universalmente aceito para ser processado
Identificador
• Por sequência de nucleotídeos ou de aminoácidos (proteínas)
• Comparação de sequências a fim de identificar similaridade deDNA ou proteína para inferir origem, função, filogenia
• Realiza comparações entre pares de sequências, buscandoregiões com similaridade local
• Alinhamento local (segmentos) é a base da busca por BLAST
• Usa algoritmos para gerar alinhamento de sequências
BUSCA EM BLAST
BLAST: Basic Local Alignment Search Tool
BUSCA EM BLAST
BUSCA EM BLAST
Mais utilizados blastn e blastp!!
Algoritmos em Blast:
• Não avaliam homologia
• Medem similaridade e identidade de seqüências
A análise de sequências objetivaencontrar similaridades importantesque permitam inferir sobre homologia
Exemplos:Órgãos homólogos – asas de morcego e mãos de humanos (mesma origem)Órgãos similares – asas de morcego e asas de borboleta (mesma função)
BUSCA EM BLAST
Identidade x Similaridade x Homologia
• Identidade = ocorrência do mesmo nucleotídeo ouaminoácido na mesma posição nas seqüências alinhadas
• Similaridade = considera combinações próximas e avaliada pormedidas de diferença/igualdade
• Homologia = dividem mesma ancestralidade, com significadoevolutivo
Homologia => conceito central de Evolução
BUSCA EM BLAST
• Nossa sequência – query (consulta),
• O resultado da busca em BLAST pode ser um ou mais hits emsequências-sujeito (subject)
• Os melhores resultados de escores são relatados,
• usar valor E
– valor E <0.01 Quanto menor o e-value, maissignificativo o alinhamento!!!
BUSCA EM BLAST
GGCTCTTTAGCTTCTTAGGACAGCACTTCCTGATT
TTGTTTTCAACTTCTAATCCTTTGAGTGTTTTTCA
TTCTGCAGATGCTGAGTTTGTGTGTGAACGGACAC
TGAAATATTTTCTAGGTGCGGGAGGAAAATGGGTA
GTTAGCTATTTCTGTAAGTATAATACTATTTCTCC
CCTCCTCCCTTTAACACCTCAGAATTGCATTTTTA
CACCTAACGTTTAACACCTAAGGTTTTTGCTGATG
CTGAGTCTGAGTTACCAAAAGGTCTTTAATTGTAA
TACTAAACTACTTTTATCTTTAATATCACTTTGTT
CAGATAAGCTGGTGATGCTGGGAAAATGGGTCTC
Z96068.1
Nucleotídeos
EAX11622.1
Proteína>EAX11622.1 lactase [Homo sapiens]
MELSWHVVFIALLSFSCWGSDWESDRNFISTAGPLTNDLLHNLSGLLGDQSSNFVAGDKDMYVCHQPLPT
FLPEYFSSLHASQITHYKVFLSWAQLLPAGSTQNPDEKTVQCYRRLLKALKTARLQPMVILHHQTLPAST
LRRTEAFADLFADYATFAFHSFGDLVGIWFTFSDLEEVIKELPHQESRASQLQTLSDAHRKAYEIYHESY
AFQGGKLSVVLRAEDIPELLLEPPISALAQDTVDFLSLDLSYECQNEASLRQKLSKLQTIEPKVKVFIFN
LKLPDCPSTMKNPASLLFSLFEAINKDQVLTIGFDINEFLSCSSSSKKSMSCSLTGSLALQPDQQQDHET
TDSSPASAYQRVWEAFANQSRAERDAFLQDTFPEGFLWGASTGAFNVEGGWAEGGRGVSIWDPRRPLNTT
EGQATLEVASDSYHKVASDVALLCGLRAQVYKFSISWSRIFPMGHGSSPSLPGVAYYNKLIDRLQDAGIE
PMATLFHWDLPQALQDHGGWQNESVVDAFLDYAAFCFSTFGDRVKLWVTFHEPWVMSYAGYGTGQHPPGI
SDPGVASFKVAHLVLKAHARTWHHYNSHHRPQQQGHVGIVLNSDWAEPLSPERPEDLRASERFLHFMLGW
FAHPVFVDGDYPATLRTQIQQMNRQCSHPVAQLPEFTEAEKQLLKGSADFLGLSHYTSRLISNAPQNTCI
PSYDTIGGFSQHVNHVWPQTSSSWIRVVPWGIRRLLQFVSLEYTRGKVPIYLAGNGMPIGESENLFDDSL
RVDYFNQYINEVLKAIKEDSVDVRSYIARSLIDGFEGPSGYSQRFGLHHVNFSDSSKSRTPRKSAYFFTS
IIEKNGFLTKGAKRLLPPNTVNLPSKVRAFTFPSEVPSKAKVVWEKFSSQPKFERDLFYHGTFRDDFLWG
VSSSAYQIEGAWDADGKGPSIWDNFTHTPGSNVKDNATGDIACDSYHQLDADLNMLRALKVKAYRFSISW
SRIFPTGRNSSINSHGVDYYNRLINGLVASNIFPMVTLFHWDLPQALQDIGGWENPALIDLFDSYADFCF
QTFGDRVKFWMTFNEPMYLAWLGYGSGEFPPGVKDPGWAPYRIAHAVIKAHARVYHTYDEKYRQEQKGVI
SLSLSTHWAEPKSPGVPRDVEAADRMLQFSLGWFAHPIFRNGDYPDTMKWKVGNRSELQHLATSRLPSFT
EEEKRFIRATADVFCLNTYYSRIVQHKTPRLNPPSYEDDQEMAEEEDPSWPSTAMNRAAPWGTRRLLNWI
KEEYGDIPIYITENGVGLTNPNTEDTDRIFYHKTYINEALKAYRLDGIDLRGYVAWSLMDNFEWLNGYTV
KFGLYHVDFNNTNRPRTARASARYYTEVITNNGMPLAREDEFLYGRFPEGFIWSAASAAYQIEGAWRADG
KGLSIWDTFSHTPLRVENDAIGDVACDSYHKIAEDLVTLQNLGVSHYRFSISWSRILPDGTTRYINEAGL
NYYVRLIDTLLAASIQPQVTIYHWDLPQTLQDVGGWENETIVQRFKEYADVLFQRLGDKVKFWITLNEPF
VIAYQGYGYGTAAPGVSNRPGTAPYIVGHNLIKAHAEAWHLYNDVYRASQGGVISITISSDWAEPRDPSN
QEDVEAARRYVQFMGGWFAHPIFKNGDYNEVMKTRIRDRSLAAGLNKSRLPEFTESEKRRINGTYDFFGF
NHYTTVLAYNLNYATAISSFDADRGVASIADRSWPDSGSFWLKMTPFGFRRILNWLKEEYNDPPIYVTEN
GVSQREETDLNDTARIYYLRTYINEALKAVQDKVDLRGYTVWSAMDNFEWATGFSERFGLHFVNYSDPSL
PRIPKASAKFYASVVRCNGFPDPATGPHACLHQPDAGPTISPVRQEEVQFLGLMLGTTEAQTALYVLFSL
VLLGVCGLAFLSYKYCKRSKQGKTQRSQQELSPVSSF
BLASTn
BLASTp
Colar a sequência que deseja analisar
Barra = Identidade
PROTEÍNAS
>gi|47933334|gb|AAQ63935.1| cellulose synthase [Pinus radiata]
MEARTNTAAGSNKRNVRVSVRDDGELGPKPPQHINSHICQICGEDV
GLAADGEFFVACNECAFPVCRPCYEYEWKDGNQSCPQCKTRYKWH
KGSPQVDGDKEDECADDLDHDFNSTQGNRNEKQQIAEAMLHWQM
AYGRGEDVGPSRSESQELPQLQVPLITNGQAISGELPAGSSEYRRIA
APPTGGGSGKRVHPLPFPDSTQTGQVRA
>LINHA DO NOME
MÁXIMA DE 80 CARACTERES POR LINHA
FORMATO FASTA
BUSCA EM BLAST
AY751548.1L03637.1
AJ005984.1NM_001246552.1
G24983.1BK000460
NM_001045493.1NM_001114949.1
BC037526.1AB081072.1AY136463.1BC009121.1AB052957.1
Recommended