Upload
meryl
View
42
Download
0
Embed Size (px)
DESCRIPTION
Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura. „Everything should be made as simple, as possible but not simpler." - Albert Einstein. Grzegorz Koczyk (2004) http://www.cropnet.pl. Od sekwencji do funkcji - bioinformatyka. {A,C,G,T} n. - PowerPoint PPT Presentation
Citation preview
Grzegorz Koczyk (2004) http://www.cropnet.pl
Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura.
„Everything should be made as simple, as possible
but not simpler." - Albert Einstein
Od sekwencji do funkcji - bioinformatyka
{A,C,G,T}n
{A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V}n/3
Funkcja (np. powielanie informacji
genetycznej)
Homologia
Podobieństwo Pokrewieństwo
Homologia (podobieństwo = pokrewieństwo)
Homoplazja(podobieństwo pokrewieństwo)
Porównywanie sekwencji – czy... ?
NIE można bezpośrednio ocenić homologii. Możemy tylko oceniać ją
na podstawie podobieństwa.
Porównywanie sekwencji – czy... ?
Statystyczna istotność („nieprzypadkowość”)
Biologiczna istotność (homologia)
P(S>s)
E-value = P(S>s) * n
Liczba oczekiwanych false positives przy przeszukiwaniu bazy liczącej n sekwencji
Indukowana odpowiedź obronna przeciwko patogenom (reakcja nadwrażliwości)
avr R
R avr
Specyficzna odporność „gen-na-gen”
Odbiór – geny R muszą umożliwiać specyficzne wykrycie konkretnego sygnału - obecności patogenu. Produkt translacji mRNA genu R odbiera sygnał – obecność produktu genu avr (czynnik awirulencji).
Przekaz - geny R muszą umożliwiać wywołanie konkretnej reakcji komórki – przekaz sygnały n.p. przez aktywację kaskady kinaz.
Geny odpornościowe - struktura:
Błona komórkowa
LR
R
Xa21
LR
R
Cf9
kina
zaPto
kina
za
LR
RN
BS
TIR
LR
RN
BS
CC
CC-NBS-LRRTIR-NBS-LRR
SA
CC
SA-CC
Geny odpornościowe – podstawowe domeny:
LR
Rkin
ase
NB
S
TIR
CC
Ser/Thr kinase
Leucine Rich Repeats
Toll / Interleukin Receptor
Nucleotide BindingSite
Coiled coil / leucine zipper
Ewolucja genów odpornościowych:
Ewolucja – geny R muszą być zdolne do efektywnej odpowiedzi na zmieniające się czynniki w postaci produktów genów avr. Ich ewolucja powinna więc być szybka, a efektywne warianty upowszechniać się w genomie.
Pewne geny R (Pto, RPS2) to zakonserwowane sekwencje starożytnego (w skali wieku genomu) pchodzenia.
Studia porównawcze pokazują że ortologi genów R są bardziej zbliżone do siebie nawzajem niż paralogi.
ALE:
Ewolucja genów R - równowaga:
Odmienne warianty genów R obecne w puli to rezerwuar potencjalnej odporności.
Zamiast skupiania się na efektywności pojedyńczych genów
Polimorfizm na poziomie populacji
Gwałtowne zmiany specyficzności genów R nadal mogą zachodzi na drodze rekombinacji
międzyallelicznej.
Indywidualne geny R są nadal zdolne do szybkiej ewolucji i gwałtownych zmian specyficzności.
Poszukiwanie genów odpornościowych in silico (uwagi):
Geny znalezione przez nasze poszukiwania należą do tej samej klasy strukturalnej, niekoniecznie funkcjonalnej co prawdziwe geny odpornościowe.
Stąd: RGA (resistance gene analogs)
Opisy sekwencji w bazach danych są niedokładne. Lepsze kryteria:
wysokie podobieństwo do znanych genów R (E-value < 1e-10; unikanie propagowania fałszywych diagnoz) obecność i względne położenie domen charakterystycznych dla genów R (na podstawie przewidywanej sekwencji białkowej)
Poszukiwanie genów odpornościowych in silico (model)
Baza danych sekwencji ryżu(TIGR)
BLASTP na zdefiniowanym zbiorze sekwencji referencyjnych
HMM („odciski palców”)domen znajdowanych w genach odpornościowych
Odpytywanie powstałej struktury danych o RGA (analogi genów odpornościowych) poszczególnych
klas strukturalnych. Poszukiwanie nowych wariantów.
Narzędzia – BLASTP - wyszukiwanie sekwencji:
Możliwości: poszukiwanie podobieństwa pomiędzy sekwencjami w
dużych bazach. ocena prawdopodobieństwa przypadkowego wystąpienia
dopasowania do zapytania tak dobrego jak znalezione (E-value).
Pułapki: wyniki przeszukiwań są tak dobre jak zbiór sekwencji
referencyjnych (niewykryte niewielkie homologie, problemy z wszędobylskimi sekwencjami np. kinazami).
ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być zawsze prawdziwy. Omijamy tę wadę używając restrykcyjnych E-value (minimalizacja false positives).
Narzędzia - HMM - „odciski palców” domen:
Możliwości: poszukiwanie domen w sekwencjach białkowych. Takie
„odciski palców” są dostępne w bazach danych np. Pfam. ocena prawdopodobieństwa przypadkowego wystąpienia
dopasowania do „odcisku” tak dobrego jak znalezione.
Pułapki: HMMy są tworzone na bazie zbioru sekwencji
zawierających domenę – wyniki przeszukiwań są tak dobre jak początkowy zbiór treningowy (przykład: roślinna domena TIR).
ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być prawdziwy. Omijamy tę wadę używając empirycznie wyznaczonych gathering thresholds.
Sekwencje referencyjne (przeszukiwanie BLASTP):
Klasa Gen Patogen Żywiciel ACC
TIR-NBS-LRR
RPP5 Peronospora parasitica
Arabidopsis thaliana
AAF08790.1
N Tobacco Mosaic Virus
Nicotiana tabacum
A54810
L6 Melampsora lini Linum usitatissimum
T18546
M Melampsora lini Linum usitatissimum
AAB47618.1
CC-NBS-LRR
RPS2 Pseudomonas syringae
p.v. tomato
Arabidopsis thaliana
NP 194339.1
RPM1 Pseudomonas syringae
p.v. maculicola
Arabidopsis thaliana
NP 187360.1
Sekwencje referencyjne (przeszukiwanie BLASTP):Klasa Gen Patogen Żywiciel ACC
CC-NBS-LRR
I2 Fusarium oxysporium
t.sp. lycopersicon
Lycopersicon esculentum
AAD27815.1
Mla1 Erysiphe graminis f.sp. hordei
Hordeum vulgare
AAG3736.1
NBS-LRR
Pi-ta Magnaporthe grisea Oryza sativa AAK00132.1
Pib Magnaporthe grisea Oryza sativa BAA76281
Xa1 Xanthomonas oryza p.v. oryzae
Oryza sativa T00020
Pto Pto Pseudomonas syringae p.v. tomato
Lycopersicon esculentum
AAF76313.1
Rpg1 Hordeum vulgare Puccinia graminis f.sp. tritici
AAM76922.1
Sekwencje referencyjne (przeszukiwanie BLASTP):
Klasa Gen Patogen Żywiciel ACC
Cf-9 Cf-9 Cladosporium
fulvum
Lycopersicon
pimpinellifolium
CAA05274.1
Xa21 FLS2 flagellin receptor Arabidopsis thaliana
NP_199445.1
Xa21 Xanthomonas
oryzae p.v. oryzae
Oryza sativa T04313
SA-CC RPW8.1 Erysiphe
cichoraceum
Arabidopsis thaliana
AAK09266.1
RPW8.2 Erysiphe
cichoraceum
Arabidopsis thaliana
AAK09267.1
Rezultaty przeszukiwania (BLASTP i HMMer):
Klasa LiczebnośćTIR 1
CC-NBS-LRR* 109
CC-NBS * 70
NBS-LRR* 265
NBS* 153
Pto 545
Xa21 369 (304)*
Cf9 242(91)*
SA-CC 0
* Wliczając białka o fragmentarycznych NBS.
** W nawiasie liczba przypadków w których przewidziano domenę TM w
prawidłowej orientacji.
Lokalizacja RGA na chromosomach:
0
20
40
60
80
100
120
140
160
180
1 2 3 4 5 6 7 8 9 10 11 12
Chromosome
Num
ber
CC-NBS-LRR CC-NBS NBS-LRR NBS
Lokalizacja RGA na chromosomach:
0
20
40
60
80
100
120
140
160
180
200
1 2 3 4 5 6 7 8 9 10 11 12
Chromosome
Nu
mb
er
Pto Xa21 Cf9
Podsumowanie i uwagi:
1. Z 64574 przewidywanych przez IRGSP genów - około 2,7% (1744 sekwencje) są analogami genów R.
2. Przewidywane 597 sekwencji kodujących białka z domeną NBS, jest bardzo bliskie 600 sekwencjom uzyskanym w pierwotnym szacunku dla „draft sequence” ryżu (IRGSP, 2001). Rozkład tych sekwencji na chromosomach pokrywa się z częstościa występowania znanych genów R u ryżu.
3. Interesujące jest skupienie dużej liczby RGA zawierających domenę NBS na chromosomie 11 (28% znanych genów odpornościowych ryżu jest na chromosomie 11).
„An assessment of the resistance gene analogues of Oryza sativa ssp. japonica – their presence and structure”
Koczyk G., Chełkowski J.Cell Mol Biol Lett. 2003; 8(4):963-72
Przyszły kierunek:
2. Analiza genomu pszenicy przy pomocy znalezionych sekwencji ryżu (ze szczególnym uwzględnieniem sekwencji zawierających NBS) – obecny temat.
1. Szczegółowe badanie chromosomu 11 (duża liczba potencjalnych genów R, interesujące warianty strukturalne) – dla dokładniejszej sekwencji ryżu.
3. Uwagi:potrzeba wzięcia pod uwagę szybko zmiennych, olbrzymich ilości danych – klastrów EST (znaczna część danych)analiza sekwencji na poziomie DNA (nie białka)niemożliwe wyszukiwanie pełnych domen (średnia długość EST około 500 nt)
Nucleotide Binding Site – potwierdzone, znane motywy:
Motyw Najlepsze dopasowanie
P-loop VVSIVGFGGLGKTTLAQxVYN
Kin-2 KRYLIVIDDVW
RNBS-B GSRIIVTTRIxxVAK
GLPL CGGLPLAIKTIASLL
RNBS-D CFLYLSLFPED
EST fishing:
Selekcja153 sekwencje zawierające NBS, z chromosomów 11 i 12
Oryza sativa ssp. japonica
Przeszukiwanie>560,000 ESTs (etykietek ekspresyjnych) pszenicy.
Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji
motywów
Poszukiwany kandydat - przykład:gi|20112182|gb|BJ300496.1|BJ300496LENGTH = 672 COMBINED P-VALUE = 1.62e-26 E-VALUE = 8.1e-21 DIAGRAM: 241_[+1b]_177_[+2b]_158
[+1b] P-loop
2.4e-20 V..V..S..I..V..G..M..G..G..L..G..K..T..T..L..A..Q..Q..V..Y. + + + + + + + + + + + + + + + + + + + T..V..S..I..V..G..F..G..G..M..G..K..T..T..L..A..K..A..V..Y.226 GAAGCATCCATTGAAGACGGTTTCTATTGTTGGATTTGGTGGGATGGGCAAGACAACTCTTGCCAAAGCAGTGTA
obszar potencjalnie zmienny (projektowanie primera) .N.. + .D..301 TGACAAGCTCAAAGTGCAATTTGATTGTGGTGCCTTTGTTTCAGTTTCTCAAAATCCCGACATCAAGAAGGTTTT
[+2b] Kin-2 6.8e-15 K..R..Y..F..I..V..I..D..D..V..W.. + + + + + + + + + + + K..R..Y..L..I..V..I..D..D..I..W..451 GATCGATGAAATCATTGAATTTCTTAATGACAAGAGGTATCTCATCGTAATTGATGATATATGGAATGAAAAATC
- konserwatywne, dobrze dopasowane wystąpienia motywu
- podobieństwo do znanych genów odpornościowych
EST fishing:
Selekcja153 sekwencje zawierające NBS, z chromosomów 11 i 12
Oryza sativa ssp. japonica
Przeszukiwanie>560’000 ESTs (etykietek ekspresyjnych) pszenicy.
Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji
motywów (program MEME)
Konstrukcjaprimerów na podstawie rejonów zmiennych pomiędzy
konserwatywnymi motywami.
„Transgeneza i genomika roślin uprawnych”
Założona pod koniec 2003 roku Sieć Naukowa KBN.
Skupia zespoły naukowe z Poznania, Warszawy, Wrocławia, Radzikowa...
http://www.cropnet.pl
Poświęcona promocji wyników badań, koordynacji współpracy między ośrodkami członkowskimi, tworzeniu
i upowszechnianiu analiz bioinformatycznych.
„Transgeneza i genomika roślin uprawnych”
http://www.cropnet.pl
- porównywanie sekwencji (BLAST, WU-BLAST, CLUSTAL)- wyszukiwanie domen (HMMer, WISE-2.2, PRODIV-TMHMM)- wyszukiwanie zakonserwowanych motywów (MAST/MEME)- rekonstrukcja filogenezy (PHYLIP, NJTREE)- analiza sekwencji (EMBOSS)- predykcja struktury drugorzędowej białek (PSIPRED)- wyszukiwanie powtórzonych sekwencji (RepeatMasker)
Aktualny projekt badawczy: analiza zdarzeń insercji/delecji w genomach Arabidopsis thaliana Col-0 i Ler
Klastr obliczeniowy
KońcówkaKońcówka
KońcówkaKońcówka
Serwer sieciowy/Serwer baz danych
Dziękuję za uwagę