42
Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri

  • Upload
    alika

  • View
    66

  • Download
    9

Embed Size (px)

DESCRIPTION

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri. Lekciju saraksts. WoK. Komerciāla datu bāze atšķirībā no PubMed Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus Labas meklēšanas iespējas un papildus bonusi - PowerPoint PPT Presentation

Citation preview

Page 1: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Bioloģiskās informācijas datubāzes. Informācijas

meklēšanas un iegūšanas sistēmas Piemēri

Page 2: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Lekciju saraksts

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra2

N.p.k. Datums Lekcijas temats

1. 15.09.2011Ievadlekcija. Prasības kursa apgūšanai un literatūras avoti. Bioinformātikas jēdziens. Kas ir bioinformātika un kāpēc tā biologiem vajadzīga? Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi

2. 22.09.2011 Bioloģiskās informācijas veidi un apjoms. Genomu organizācija. Modernās genomu analīzes metodes3. 29.09.2011 Genomu evolūcija. Salīdzinošā genomika 4. 06.10.2011 Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas 5. 13.10.2011 Dažādu bioloģiskās informācijas datubāžu izmantošanas piemēri

6. 20.10.2011 Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Nukleīnskābju un proteīnu sekvenču pāru salīdzināšana. BLAST veidi

7. 27.10.2011 Nukleīnskābju un proteīnu daudzkārtējās salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi. Datorprogrammas nukleīnskābju un proteīnu sekvenču daudzkārtējai salīdzināšanai

8. 03.11.2011 Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar informācijas meklēšanu datu bāzēs un sekvenču homoloģijas meklēšanu

9. 10.11.2011 Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā 10. 17.11.2011 Datorprogrammas nukleīnskābju un proteīnu sekvenču filoģenētiskajai analīzei

11. 24.11.2011 Makromolekulu telpiskā struktūra un tās paredzēšana. DNS topoloģija. Proteīnu struktūras paredzēšana, modelēšana un pielietojums farmakoloģijā

12. 01.12.2011 Genoma ekspresijas analīze. Transkriptomika. DNS čipi genomu polimorfisma analīzē. Gēnu ekspresijas ģenētika 13. 08.12.2011 Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa.

14. 15.12.2011Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar filoģenētisko analīzi un proteīnu sekundārās struktūras paredzēšanu. Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai

15. 22.12.2011 Eksāmens

Page 3: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

WoK

• Komerciāla datu bāze atšķirībā no PubMed • Relatīvi selektīva – indeksē tikai augstas

kvalitātes izdevumus • Labas meklēšanas iespējas un papildus

bonusi • Saistīta ar Journal Citation Reports datu bāzi

(Journal Impact Factors) un autoru citējamību

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra3

Page 4: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Journal Impact Factor

• Žurnāla IF ir vidējais reižu skaits noteiktā gadā, ko šī žurnāla raksti ir tikuši citēti iepriekšējos divos gados

• Žurnāla IF aprēķina izdalot citātu skaitu noteiktā gadā ar šajā žurnālā publicēto rakstu skaitu iepriekšējos divos gados

Piemēram, žurnālā XYZ 2008. - 2009. gadā ir publicēti 200 raksti, uz kuriem 2010. gadā vidēji ir 400 atsauces (citāti). Žurnāla XYZ IF 2010. gadā ir 2 • IF mainās pa gadiem atkarībā no atsauču skaita • IF ņem vērā gan atsauces no citiem žurnāliem, gan arī

pašcitēšanos • IF raksturo žurnālu, nevis konkrētu šajā žurnālā publicētu rakstu

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra4

Page 5: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Autoru citējamību raksturojoši rādītāji

• H – indekss (Hirša indekss) • H – indekss ir noteikta autora publikāciju skaits h, uz

kurām katrai ir vismaz h atsauces • Piemēram, autoram A.B.C. kopā ir 30 publikācijas.

Tās ranžējot pēc atsauču skaita nosaka, ka uz 12 publikācijām ir vairāk nekā 12 atsauces, t.i., h-indekss ir 12

Hirsch (2005) An index to quantify an individual’s scientific research output. PNAS, 102:16569

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra5

Page 6: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Harzing’s Publish or Perish

• PoP izmanto Google Scholar datus (http://scholar.google.com)

• PoP ir datorprogramma, kas izmantojot Google Scholar datus par autoru vai žurnālu rakstiem izrēķina citējamības rādītājus

Kopējais publikāciju skaits, atsauču skaits uz šīm publikācijām, dažādi indeksi

http://www.harzing.com/pop.htm

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra6

Page 7: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Latvijas zinātnieku publikācijas 2000 – 2011 (oktobris)

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra7

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 (Oct)

0

100

200

300

400

500

600

700

R² = 0.683132443543477

PubMed Latvia WoK LU SCI-ExpandedLinear (WoK LU SCI-Expanded) WoK LU allWoK SCI-Expanded WoK all Latvia

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 (Oct)

0

50

100

150

200

250

R² = 0.910858983455066

R² = 0.683132443543477

PubMed Latvia Linear (PubMed Latvia)WoK LU SCI-Expanded Linear (WoK LU SCI-Expanded)WoK LU all

Page 8: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

NCBI Bookshelf

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra8

Page 9: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

NCBI OMIM (Online Mendelian Inheritance in Man)

• Literatūras datu bāze par cilvēka iedzimtajām slimībām

• Ar iedzimtajām slimībām saistīto gēnu katalogs ar literatūras atsaucēm un saitēm uz sekvencēm un citiem resursiem

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra9

Page 10: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

OMIM statistika

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra10

Page 11: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Fenilketornūrija

• Slimības apraksts, klīniskās īpašības, defektīvais gēns, ģenētiskās izmaiņas, >200 literatūras atsauču

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra11

Page 12: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Nukleotīdu datu bāze

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra12

Page 13: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Nukleotīdu datu bāze

• Nukleotīdu datu bāze ir galvenā (un lielākā) GenBank sastāvdaļa

• Lai to padarītu puslīdz izmantojamu, nukleotīdu sekvenču dati ir sadalīti kategorijās Core nucleotide – augstas kvalitātes sekvences EST – Expressed Sequence Tags – zema kvalitāte GSS – Genome Survey Sequences – zema kvalitāte RefSeq – visaugstākās kvalitātes pārbaudītas un zināmas funkcijas gēnu sekvences Unigene – no EST datiem rekonstruēto gēnu transkriptu sekvences

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra13

Page 14: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

EST iegūšanas shēma

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra14

Page 15: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

EST kvalitāte, unigēni

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra15

Page 16: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Statistika par EST datu bāzi

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra16

Page 17: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Teksta meklēšana nukleotīdu datu bāzē

• Meklēt var gan pēc sekvenču iesniedzēja vārda, gan organisma, gan gēna nosaukuma. To visu var un vajag apvienot, lai veiktu specifisku meklēšanu

• Piemēram, “homo sapiens[organism] AND interferon-alpha 13”

• Ja zināms GenBank identifikators, vislabāk meklēt pēc tā (piemēram, X75934)

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra17

Page 18: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

GenBank ieraksts

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra18

Locus – ietver lokusa nosaukumu, sekvences tipu un tmldz. Lokusa nosaukums visbiežāk ir tas pats Accession number, dažreiz ar info par organisma sugu . Ir unikāls,

var mainīties

Versija un GI – Versija sastāv no Accession number ar numuru, kas uzskaita, cik reizes sekvence mainīta. GI ir

paralēla numerācija Accession numuram, bet katru reizi, kad sekvence tiek izmainīta, tai tiek piešķirts jauns

GI

Accession – uzskaites numurs. To piešķir sekvencei, kad to iesniedz GenBank. Tas ir numurs, ko norāda publikācijās.

Accesion ir unikāls un stabils numurs. References sekvencēm ir specifiski numuri:

NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes

Page 19: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

GenBank ieraksts - īpašības

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra19

Page 20: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

GenBank ieraksts - sekvence

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra20

Page 21: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Ko tālāk darīt ar atrasto sekvenci?

• GenBank formāts ir informatīvs un cilvēkam viegli lasāms, bet tas nav viegli izmantojams dažādās DNS analīzes programmās, tāpēc DNS secību iespējams eksportēt FASTA formātā

• Apskatīt DNS secības kodēto aminoskābju sekvenci un ar to saistīto informāciju

• Iegūt tālāku informāciju par sekvenci iepazīstoties ar saistītajiem literatūras avotiem

• Identificēt radniecīgas sekvences izmantojot homoloģijas meklēšanas programmas BLAST

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra21

Page 22: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

GenBank proteīnu datu bāzes

• http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein • cyclic nucleotide receptor protein AND Escherichia

coli[ORGN] • CRP ir universāls transkripcijas faktors, kas regulē

ogļhidrātu metabolismu baktēriju šūnās, tā aktivitāti regulē cAMP

• Gēns klonēts un sekvenēts jau 1982. gadā, zināma proteīna struktūra

• Apskatīsim P0ACJ8

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra22

Page 23: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CRP

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra23

Page 24: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CRP – konservatīvie domēni

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra24

Page 25: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CRP – proteīna struktūra

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra25

Page 26: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CRP – proteīna struktūra

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra26

Page 27: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Vēl viens piemērs...

• hypothetical protein AND homo sapiens[ORGN] • 17533 ieraksti proteīnu datu bāzē 2009 • 10975 ieraksti proteīnu datu bāzē 2011

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra27

Page 28: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra28

Page 29: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Taksonomijas datu bāze

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra29

Page 30: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Taksonomijas datu bāze – Eukaryota

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra30

Page 31: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

SNP datu bāze

• SNP – visbiežāk sastopamais ģenētiskā polimorfisma veids

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra31

Page 32: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

SNP datu bāze

• http://www.ncbi.nlm.nih.gov/SNP/ • ss – submitted SNP, rs – reference SNP

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra32

Page 33: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Informācijas meklēšana SNP datu bāzē

• Lai atrastu SNP, noteiktā gēnā, vislabāk sākt ar Entrez meklēšanu, atrast gēnu, tad izmantot “Link” uz SNP datu bāzi

• Var arī izmantot BLASTN programmu, lai SNP datu bāzē atrastu sekvences (ar SNP), kas homologas interesējošam gēnam

• Var meklēt SNP izmantojot GenBank Accession vai arī SNP identifikatorus

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra33

Page 34: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CDD (Conserved protein Domain Database)

• http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd• Proteīni bieži sastāv no dažādiem domēniem, kuru

sekvence un struktūra var būt saglabāta evolucionāri attālos organismos

• CDD satur proteīnu domēnu sekvenču daudzkārtējus salīdzinājumus, kas ļauj raksturot proteīnus ar nezināmu struktūru

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra34

Page 35: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CDD (Conserved protein Domain Database)

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra35

Page 36: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CDD

• CDD datubāze – labi anotētu proteīnu sekvenču salīdzinājumu datubāze gan domēniem, gan pilna garuma proteīniem

• CDTree – līdzeklis proteīnu sekvenču un to evolucionārās radniecības raksturošanai

• CD-Search – proteīnu domēnu meklēšana izmantojot BLAST homoloģijas analīzi

• CDART – proteīnu domēnu arhitektūras raksturošana

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra36

Page 37: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CD meklētājs

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra37

Page 38: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CD meklētājs

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra38

Page 39: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

CDART (MLA13)

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra39

Page 40: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

Clusters of orthologous groups COG

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra40

• COG datubāze satur proteīnu sekvenču salīdzinājumu, kas atbilst galvenajām filoģenētiskajām grupām

• Katrs COG satur individuālus proteīnus vai paralogu grupas vismaz no 3 attālām filoģenētiskām grupām un tādējādi atbilst senam konservatīvam domēnam

Page 41: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

PopSet (Population study data Sets)

• http://www.ncbi.nlm.nih.gov/sites/entrez?db=popset

• PopSet ir homologu DNS sekvenču grupa, kas iegūta no vienas sugas dažādiem indivīdiem, vai arī dažādu sugu pārstāvjiem, lai pētītu to evolucionārās attiecības

• PopSet dati bieži tiek iesniegti GenBank kā daudzkārtējs sekvenču salīdzinājums

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra41

Page 42: Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas  Piemēri

PopSet piemērs

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra42