Upload
alika
View
66
Download
9
Embed Size (px)
DESCRIPTION
Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri. Lekciju saraksts. WoK. Komerciāla datu bāze atšķirībā no PubMed Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus Labas meklēšanas iespējas un papildus bonusi - PowerPoint PPT Presentation
Citation preview
Bioloģiskās informācijas datubāzes. Informācijas
meklēšanas un iegūšanas sistēmas Piemēri
Lekciju saraksts
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra2
N.p.k. Datums Lekcijas temats
1. 15.09.2011Ievadlekcija. Prasības kursa apgūšanai un literatūras avoti. Bioinformātikas jēdziens. Kas ir bioinformātika un kāpēc tā biologiem vajadzīga? Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi
2. 22.09.2011 Bioloģiskās informācijas veidi un apjoms. Genomu organizācija. Modernās genomu analīzes metodes3. 29.09.2011 Genomu evolūcija. Salīdzinošā genomika 4. 06.10.2011 Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas 5. 13.10.2011 Dažādu bioloģiskās informācijas datubāžu izmantošanas piemēri
6. 20.10.2011 Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Nukleīnskābju un proteīnu sekvenču pāru salīdzināšana. BLAST veidi
7. 27.10.2011 Nukleīnskābju un proteīnu daudzkārtējās salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi. Datorprogrammas nukleīnskābju un proteīnu sekvenču daudzkārtējai salīdzināšanai
8. 03.11.2011 Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar informācijas meklēšanu datu bāzēs un sekvenču homoloģijas meklēšanu
9. 10.11.2011 Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā 10. 17.11.2011 Datorprogrammas nukleīnskābju un proteīnu sekvenču filoģenētiskajai analīzei
11. 24.11.2011 Makromolekulu telpiskā struktūra un tās paredzēšana. DNS topoloģija. Proteīnu struktūras paredzēšana, modelēšana un pielietojums farmakoloģijā
12. 01.12.2011 Genoma ekspresijas analīze. Transkriptomika. DNS čipi genomu polimorfisma analīzē. Gēnu ekspresijas ģenētika 13. 08.12.2011 Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa.
14. 15.12.2011Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar filoģenētisko analīzi un proteīnu sekundārās struktūras paredzēšanu. Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai
15. 22.12.2011 Eksāmens
WoK
• Komerciāla datu bāze atšķirībā no PubMed • Relatīvi selektīva – indeksē tikai augstas
kvalitātes izdevumus • Labas meklēšanas iespējas un papildus
bonusi • Saistīta ar Journal Citation Reports datu bāzi
(Journal Impact Factors) un autoru citējamību
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra3
Journal Impact Factor
• Žurnāla IF ir vidējais reižu skaits noteiktā gadā, ko šī žurnāla raksti ir tikuši citēti iepriekšējos divos gados
• Žurnāla IF aprēķina izdalot citātu skaitu noteiktā gadā ar šajā žurnālā publicēto rakstu skaitu iepriekšējos divos gados
Piemēram, žurnālā XYZ 2008. - 2009. gadā ir publicēti 200 raksti, uz kuriem 2010. gadā vidēji ir 400 atsauces (citāti). Žurnāla XYZ IF 2010. gadā ir 2 • IF mainās pa gadiem atkarībā no atsauču skaita • IF ņem vērā gan atsauces no citiem žurnāliem, gan arī
pašcitēšanos • IF raksturo žurnālu, nevis konkrētu šajā žurnālā publicētu rakstu
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra4
Autoru citējamību raksturojoši rādītāji
• H – indekss (Hirša indekss) • H – indekss ir noteikta autora publikāciju skaits h, uz
kurām katrai ir vismaz h atsauces • Piemēram, autoram A.B.C. kopā ir 30 publikācijas.
Tās ranžējot pēc atsauču skaita nosaka, ka uz 12 publikācijām ir vairāk nekā 12 atsauces, t.i., h-indekss ir 12
Hirsch (2005) An index to quantify an individual’s scientific research output. PNAS, 102:16569
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra5
Harzing’s Publish or Perish
• PoP izmanto Google Scholar datus (http://scholar.google.com)
• PoP ir datorprogramma, kas izmantojot Google Scholar datus par autoru vai žurnālu rakstiem izrēķina citējamības rādītājus
Kopējais publikāciju skaits, atsauču skaits uz šīm publikācijām, dažādi indeksi
http://www.harzing.com/pop.htm
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra6
Latvijas zinātnieku publikācijas 2000 – 2011 (oktobris)
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra7
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 (Oct)
0
100
200
300
400
500
600
700
R² = 0.683132443543477
PubMed Latvia WoK LU SCI-ExpandedLinear (WoK LU SCI-Expanded) WoK LU allWoK SCI-Expanded WoK all Latvia
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 (Oct)
0
50
100
150
200
250
R² = 0.910858983455066
R² = 0.683132443543477
PubMed Latvia Linear (PubMed Latvia)WoK LU SCI-Expanded Linear (WoK LU SCI-Expanded)WoK LU all
NCBI Bookshelf
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra8
NCBI OMIM (Online Mendelian Inheritance in Man)
• Literatūras datu bāze par cilvēka iedzimtajām slimībām
• Ar iedzimtajām slimībām saistīto gēnu katalogs ar literatūras atsaucēm un saitēm uz sekvencēm un citiem resursiem
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra9
OMIM statistika
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra10
Fenilketornūrija
• Slimības apraksts, klīniskās īpašības, defektīvais gēns, ģenētiskās izmaiņas, >200 literatūras atsauču
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra11
Nukleotīdu datu bāze
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra12
Nukleotīdu datu bāze
• Nukleotīdu datu bāze ir galvenā (un lielākā) GenBank sastāvdaļa
• Lai to padarītu puslīdz izmantojamu, nukleotīdu sekvenču dati ir sadalīti kategorijās Core nucleotide – augstas kvalitātes sekvences EST – Expressed Sequence Tags – zema kvalitāte GSS – Genome Survey Sequences – zema kvalitāte RefSeq – visaugstākās kvalitātes pārbaudītas un zināmas funkcijas gēnu sekvences Unigene – no EST datiem rekonstruēto gēnu transkriptu sekvences
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra13
EST iegūšanas shēma
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra14
EST kvalitāte, unigēni
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra15
Statistika par EST datu bāzi
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra16
Teksta meklēšana nukleotīdu datu bāzē
• Meklēt var gan pēc sekvenču iesniedzēja vārda, gan organisma, gan gēna nosaukuma. To visu var un vajag apvienot, lai veiktu specifisku meklēšanu
• Piemēram, “homo sapiens[organism] AND interferon-alpha 13”
• Ja zināms GenBank identifikators, vislabāk meklēt pēc tā (piemēram, X75934)
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra17
GenBank ieraksts
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra18
Locus – ietver lokusa nosaukumu, sekvences tipu un tmldz. Lokusa nosaukums visbiežāk ir tas pats Accession number, dažreiz ar info par organisma sugu . Ir unikāls,
var mainīties
Versija un GI – Versija sastāv no Accession number ar numuru, kas uzskaita, cik reizes sekvence mainīta. GI ir
paralēla numerācija Accession numuram, bet katru reizi, kad sekvence tiek izmainīta, tai tiek piešķirts jauns
GI
Accession – uzskaites numurs. To piešķir sekvencei, kad to iesniedz GenBank. Tas ir numurs, ko norāda publikācijās.
Accesion ir unikāls un stabils numurs. References sekvencēm ir specifiski numuri:
NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes
GenBank ieraksts - īpašības
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra19
GenBank ieraksts - sekvence
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra20
Ko tālāk darīt ar atrasto sekvenci?
• GenBank formāts ir informatīvs un cilvēkam viegli lasāms, bet tas nav viegli izmantojams dažādās DNS analīzes programmās, tāpēc DNS secību iespējams eksportēt FASTA formātā
• Apskatīt DNS secības kodēto aminoskābju sekvenci un ar to saistīto informāciju
• Iegūt tālāku informāciju par sekvenci iepazīstoties ar saistītajiem literatūras avotiem
• Identificēt radniecīgas sekvences izmantojot homoloģijas meklēšanas programmas BLAST
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra21
GenBank proteīnu datu bāzes
• http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein • cyclic nucleotide receptor protein AND Escherichia
coli[ORGN] • CRP ir universāls transkripcijas faktors, kas regulē
ogļhidrātu metabolismu baktēriju šūnās, tā aktivitāti regulē cAMP
• Gēns klonēts un sekvenēts jau 1982. gadā, zināma proteīna struktūra
• Apskatīsim P0ACJ8
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra22
CRP
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra23
CRP – konservatīvie domēni
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra24
CRP – proteīna struktūra
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra25
CRP – proteīna struktūra
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra26
Vēl viens piemērs...
• hypothetical protein AND homo sapiens[ORGN] • 17533 ieraksti proteīnu datu bāzē 2009 • 10975 ieraksti proteīnu datu bāzē 2011
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra27
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra28
Taksonomijas datu bāze
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra29
Taksonomijas datu bāze – Eukaryota
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra30
SNP datu bāze
• SNP – visbiežāk sastopamais ģenētiskā polimorfisma veids
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra31
SNP datu bāze
• http://www.ncbi.nlm.nih.gov/SNP/ • ss – submitted SNP, rs – reference SNP
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra32
Informācijas meklēšana SNP datu bāzē
• Lai atrastu SNP, noteiktā gēnā, vislabāk sākt ar Entrez meklēšanu, atrast gēnu, tad izmantot “Link” uz SNP datu bāzi
• Var arī izmantot BLASTN programmu, lai SNP datu bāzē atrastu sekvences (ar SNP), kas homologas interesējošam gēnam
• Var meklēt SNP izmantojot GenBank Accession vai arī SNP identifikatorus
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra33
CDD (Conserved protein Domain Database)
• http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd• Proteīni bieži sastāv no dažādiem domēniem, kuru
sekvence un struktūra var būt saglabāta evolucionāri attālos organismos
• CDD satur proteīnu domēnu sekvenču daudzkārtējus salīdzinājumus, kas ļauj raksturot proteīnus ar nezināmu struktūru
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra34
CDD (Conserved protein Domain Database)
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra35
CDD
• CDD datubāze – labi anotētu proteīnu sekvenču salīdzinājumu datubāze gan domēniem, gan pilna garuma proteīniem
• CDTree – līdzeklis proteīnu sekvenču un to evolucionārās radniecības raksturošanai
• CD-Search – proteīnu domēnu meklēšana izmantojot BLAST homoloģijas analīzi
• CDART – proteīnu domēnu arhitektūras raksturošana
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra36
CD meklētājs
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra37
CD meklētājs
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra38
CDART (MLA13)
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra39
Clusters of orthologous groups COG
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra40
• COG datubāze satur proteīnu sekvenču salīdzinājumu, kas atbilst galvenajām filoģenētiskajām grupām
• Katrs COG satur individuālus proteīnus vai paralogu grupas vismaz no 3 attālām filoģenētiskām grupām un tādējādi atbilst senam konservatīvam domēnam
PopSet (Population study data Sets)
• http://www.ncbi.nlm.nih.gov/sites/entrez?db=popset
• PopSet ir homologu DNS sekvenču grupa, kas iegūta no vienas sugas dažādiem indivīdiem, vai arī dažādu sugu pārstāvjiem, lai pētītu to evolucionārās attiecības
• PopSet dati bieži tiek iesniegti GenBank kā daudzkārtējs sekvenču salīdzinājums
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra41
PopSet piemērs
2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas
katedra42