Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri

Bioloģiskās informācijas datubāzes. Informācijas

meklēšanas un iegūšanas sistēmas Piemēri

Lekciju saraksts

2011. gada 13. oktobrisMikrobioloģijas un biotehnoloģijas

katedra2

N.p.k. Datums Lekcijas temats

1. 15.09.2011Ievadlekcija. Prasības kursa apgūšanai un literatūras avoti. Bioinformātikas jēdziens. Kas ir bioinformātika un kāpēc tā biologiem vajadzīga? Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi

2. 22.09.2011 Bioloģiskās informācijas veidi un apjoms. Genomu organizācija. Modernās genomu analīzes metodes3. 29.09.2011 Genomu evolūcija. Salīdzinošā genomika 4. 06.10.2011 Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas 5. 13.10.2011 Dažādu bioloģiskās informācijas datubāžu izmantošanas piemēri

6. 20.10.2011 Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Nukleīnskābju un proteīnu sekvenču pāru salīdzināšana. BLAST veidi

7. 27.10.2011 Nukleīnskābju un proteīnu daudzkārtējās salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi. Datorprogrammas nukleīnskābju un proteīnu sekvenču daudzkārtējai salīdzināšanai

8. 03.11.2011 Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar informācijas meklēšanu datu bāzēs un sekvenču homoloģijas meklēšanu

9. 10.11.2011 Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā 10. 17.11.2011 Datorprogrammas nukleīnskābju un proteīnu sekvenču filoģenētiskajai analīzei

11. 24.11.2011 Makromolekulu telpiskā struktūra un tās paredzēšana. DNS topoloģija. Proteīnu struktūras paredzēšana, modelēšana un pielietojums farmakoloģijā

12. 01.12.2011 Genoma ekspresijas analīze. Transkriptomika. DNS čipi genomu polimorfisma analīzē. Gēnu ekspresijas ģenētika 13. 08.12.2011 Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa.

14. 15.12.2011Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar filoģenētisko analīzi un proteīnu sekundārās struktūras paredzēšanu. Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai

15. 22.12.2011 Eksāmens

WoK

• Komerciāla datu bāze atšķirībā no PubMed • Relatīvi selektīva – indeksē tikai augstas

kvalitātes izdevumus • Labas meklēšanas iespējas un papildus

bonusi • Saistīta ar Journal Citation Reports datu bāzi

(Journal Impact Factors) un autoru citējamību


katedra3

Journal Impact Factor

• Žurnāla IF ir vidējais reižu skaits noteiktā gadā, ko šī žurnāla raksti ir tikuši citēti iepriekšējos divos gados

• Žurnāla IF aprēķina izdalot citātu skaitu noteiktā gadā ar šajā žurnālā publicēto rakstu skaitu iepriekšējos divos gados

Piemēram, žurnālā XYZ 2008. - 2009. gadā ir publicēti 200 raksti, uz kuriem 2010. gadā vidēji ir 400 atsauces (citāti). Žurnāla XYZ IF 2010. gadā ir 2 • IF mainās pa gadiem atkarībā no atsauču skaita • IF ņem vērā gan atsauces no citiem žurnāliem, gan arī

pašcitēšanos • IF raksturo žurnālu, nevis konkrētu šajā žurnālā publicētu rakstu


katedra4

Autoru citējamību raksturojoši rādītāji

• H – indekss (Hirša indekss) • H – indekss ir noteikta autora publikāciju skaits h, uz

kurām katrai ir vismaz h atsauces • Piemēram, autoram A.B.C. kopā ir 30 publikācijas.

Tās ranžējot pēc atsauču skaita nosaka, ka uz 12 publikācijām ir vairāk nekā 12 atsauces, t.i., h-indekss ir 12

Hirsch (2005) An index to quantify an individual’s scientific research output. PNAS, 102:16569


katedra5

Harzing’s Publish or Perish

• PoP izmanto Google Scholar datus (http://scholar.google.com)

• PoP ir datorprogramma, kas izmantojot Google Scholar datus par autoru vai žurnālu rakstiem izrēķina citējamības rādītājus

Kopējais publikāciju skaits, atsauču skaits uz šīm publikācijām, dažādi indeksi

http://www.harzing.com/pop.htm


katedra6

Latvijas zinātnieku publikācijas 2000 – 2011 (oktobris)


katedra7

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 (Oct)

0

100

200

300

400

500

600

700

R² = 0.683132443543477

PubMed Latvia WoK LU SCI-ExpandedLinear (WoK LU SCI-Expanded) WoK LU allWoK SCI-Expanded WoK all Latvia

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 (Oct)

0

50

100

150

200

250

R² = 0.910858983455066

R² = 0.683132443543477

PubMed Latvia Linear (PubMed Latvia)WoK LU SCI-Expanded Linear (WoK LU SCI-Expanded)WoK LU all

NCBI Bookshelf


katedra8

NCBI OMIM (Online Mendelian Inheritance in Man)

• Literatūras datu bāze par cilvēka iedzimtajām slimībām

• Ar iedzimtajām slimībām saistīto gēnu katalogs ar literatūras atsaucēm un saitēm uz sekvencēm un citiem resursiem


katedra9

OMIM statistika


katedra10

Fenilketornūrija

• Slimības apraksts, klīniskās īpašības, defektīvais gēns, ģenētiskās izmaiņas, >200 literatūras atsauču


katedra11

Nukleotīdu datu bāze


katedra12

Nukleotīdu datu bāze

• Nukleotīdu datu bāze ir galvenā (un lielākā) GenBank sastāvdaļa

• Lai to padarītu puslīdz izmantojamu, nukleotīdu sekvenču dati ir sadalīti kategorijās Core nucleotide – augstas kvalitātes sekvences EST – Expressed Sequence Tags – zema kvalitāte GSS – Genome Survey Sequences – zema kvalitāte RefSeq – visaugstākās kvalitātes pārbaudītas un zināmas funkcijas gēnu sekvences Unigene – no EST datiem rekonstruēto gēnu transkriptu sekvences


katedra13

EST iegūšanas shēma


katedra14

EST kvalitāte, unigēni


katedra15

Statistika par EST datu bāzi


katedra16

Teksta meklēšana nukleotīdu datu bāzē

• Meklēt var gan pēc sekvenču iesniedzēja vārda, gan organisma, gan gēna nosaukuma. To visu var un vajag apvienot, lai veiktu specifisku meklēšanu

• Piemēram, “homo sapiens[organism] AND interferon-alpha 13”

• Ja zināms GenBank identifikators, vislabāk meklēt pēc tā (piemēram, X75934)


katedra17

GenBank ieraksts


katedra18

Locus – ietver lokusa nosaukumu, sekvences tipu un tmldz. Lokusa nosaukums visbiežāk ir tas pats Accession number, dažreiz ar info par organisma sugu . Ir unikāls,

var mainīties

Versija un GI – Versija sastāv no Accession number ar numuru, kas uzskaita, cik reizes sekvence mainīta. GI ir

paralēla numerācija Accession numuram, bet katru reizi, kad sekvence tiek izmainīta, tai tiek piešķirts jauns

GI

Accession – uzskaites numurs. To piešķir sekvencei, kad to iesniedz GenBank. Tas ir numurs, ko norāda publikācijās.

Accesion ir unikāls un stabils numurs. References sekvencēm ir specifiski numuri:

NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes

GenBank ieraksts - īpašības


katedra19

GenBank ieraksts - sekvence


katedra20

Ko tālāk darīt ar atrasto sekvenci?

• GenBank formāts ir informatīvs un cilvēkam viegli lasāms, bet tas nav viegli izmantojams dažādās DNS analīzes programmās, tāpēc DNS secību iespējams eksportēt FASTA formātā

• Apskatīt DNS secības kodēto aminoskābju sekvenci un ar to saistīto informāciju

• Iegūt tālāku informāciju par sekvenci iepazīstoties ar saistītajiem literatūras avotiem

• Identificēt radniecīgas sekvences izmantojot homoloģijas meklēšanas programmas BLAST


katedra21

GenBank proteīnu datu bāzes

• http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein • cyclic nucleotide receptor protein AND Escherichia

coli[ORGN] • CRP ir universāls transkripcijas faktors, kas regulē

ogļhidrātu metabolismu baktēriju šūnās, tā aktivitāti regulē cAMP

• Gēns klonēts un sekvenēts jau 1982. gadā, zināma proteīna struktūra

• Apskatīsim P0ACJ8


katedra22

CRP


katedra23

CRP – konservatīvie domēni


katedra24

CRP – proteīna struktūra


katedra25

CRP – proteīna struktūra


katedra26

Vēl viens piemērs...

• hypothetical protein AND homo sapiens[ORGN] • 17533 ieraksti proteīnu datu bāzē 2009 • 10975 ieraksti proteīnu datu bāzē 2011


katedra27


katedra28

Taksonomijas datu bāze


katedra29

Taksonomijas datu bāze – Eukaryota


katedra30

SNP datu bāze

• SNP – visbiežāk sastopamais ģenētiskā polimorfisma veids


katedra31

SNP datu bāze

• http://www.ncbi.nlm.nih.gov/SNP/ • ss – submitted SNP, rs – reference SNP


katedra32

Informācijas meklēšana SNP datu bāzē

• Lai atrastu SNP, noteiktā gēnā, vislabāk sākt ar Entrez meklēšanu, atrast gēnu, tad izmantot “Link” uz SNP datu bāzi

• Var arī izmantot BLASTN programmu, lai SNP datu bāzē atrastu sekvences (ar SNP), kas homologas interesējošam gēnam

• Var meklēt SNP izmantojot GenBank Accession vai arī SNP identifikatorus


katedra33

CDD (Conserved protein Domain Database)

• http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd• Proteīni bieži sastāv no dažādiem domēniem, kuru

sekvence un struktūra var būt saglabāta evolucionāri attālos organismos

• CDD satur proteīnu domēnu sekvenču daudzkārtējus salīdzinājumus, kas ļauj raksturot proteīnus ar nezināmu struktūru


katedra34

CDD (Conserved protein Domain Database)


katedra35

CDD

• CDD datubāze – labi anotētu proteīnu sekvenču salīdzinājumu datubāze gan domēniem, gan pilna garuma proteīniem

• CDTree – līdzeklis proteīnu sekvenču un to evolucionārās radniecības raksturošanai

• CD-Search – proteīnu domēnu meklēšana izmantojot BLAST homoloģijas analīzi

• CDART – proteīnu domēnu arhitektūras raksturošana


katedra36

CD meklētājs


katedra37

CD meklētājs


katedra38

CDART (MLA13)


katedra39

Clusters of orthologous groups COG


katedra40

• COG datubāze satur proteīnu sekvenču salīdzinājumu, kas atbilst galvenajām filoģenētiskajām grupām

• Katrs COG satur individuālus proteīnus vai paralogu grupas vismaz no 3 attālām filoģenētiskām grupām un tādējādi atbilst senam konservatīvam domēnam

PopSet (Population study data Sets)

• http://www.ncbi.nlm.nih.gov/sites/entrez?db=popset

• PopSet ir homologu DNS sekvenču grupa, kas iegūta no vienas sugas dažādiem indivīdiem, vai arī dažādu sugu pārstāvjiem, lai pētītu to evolucionārās attiecības

• PopSet dati bieži tiek iesniegti GenBank kā daudzkārtējs sekvenču salīdzinājums


katedra41

PopSet piemērs


katedra42

Documents

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri