Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura

Grzegorz Koczyk (2004) http://www.cropnet.pl

Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura.

„Everything should be made as simple, as possible

but not simpler." - Albert Einstein

Od sekwencji do funkcji - bioinformatyka

{A,C,G,T}n

{A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V}n/3

Funkcja (np. powielanie informacji

genetycznej)

Homologia

Podobieństwo Pokrewieństwo

Homologia (podobieństwo = pokrewieństwo)

Homoplazja(podobieństwo pokrewieństwo)

Porównywanie sekwencji – czy... ?

NIE można bezpośrednio ocenić homologii. Możemy tylko oceniać ją

na podstawie podobieństwa.

Porównywanie sekwencji – czy... ?

Statystyczna istotność („nieprzypadkowość”)

Biologiczna istotność (homologia)

P(S>s)

E-value = P(S>s) * n

Liczba oczekiwanych false positives przy przeszukiwaniu bazy liczącej n sekwencji

Indukowana odpowiedź obronna przeciwko patogenom (reakcja nadwrażliwości)

avr R

R avr

Specyficzna odporność „gen-na-gen”

Odbiór – geny R muszą umożliwiać specyficzne wykrycie konkretnego sygnału - obecności patogenu. Produkt translacji mRNA genu R odbiera sygnał – obecność produktu genu avr (czynnik awirulencji).

Przekaz - geny R muszą umożliwiać wywołanie konkretnej reakcji komórki – przekaz sygnały n.p. przez aktywację kaskady kinaz.

Geny odpornościowe - struktura:

Błona komórkowa

LR

R

Xa21

LR

R

Cf9

kina

zaPto

kina

za

LR

RN

BS

TIR

LR

RN

BS

CC

CC-NBS-LRRTIR-NBS-LRR

SA

CC

SA-CC

Geny odpornościowe – podstawowe domeny:

LR

Rkin

ase

NB

S

TIR

CC

Ser/Thr kinase

Leucine Rich Repeats

Toll / Interleukin Receptor

Nucleotide BindingSite

Coiled coil / leucine zipper

Ewolucja genów odpornościowych:

Ewolucja – geny R muszą być zdolne do efektywnej odpowiedzi na zmieniające się czynniki w postaci produktów genów avr. Ich ewolucja powinna więc być szybka, a efektywne warianty upowszechniać się w genomie.

Pewne geny R (Pto, RPS2) to zakonserwowane sekwencje starożytnego (w skali wieku genomu) pchodzenia.

Studia porównawcze pokazują że ortologi genów R są bardziej zbliżone do siebie nawzajem niż paralogi.

ALE:

Ewolucja genów R - równowaga:

Odmienne warianty genów R obecne w puli to rezerwuar potencjalnej odporności.

Zamiast skupiania się na efektywności pojedyńczych genów

Polimorfizm na poziomie populacji

Gwałtowne zmiany specyficzności genów R nadal mogą zachodzi na drodze rekombinacji

międzyallelicznej.

Indywidualne geny R są nadal zdolne do szybkiej ewolucji i gwałtownych zmian specyficzności.

Poszukiwanie genów odpornościowych in silico (uwagi):

Geny znalezione przez nasze poszukiwania należą do tej samej klasy strukturalnej, niekoniecznie funkcjonalnej co prawdziwe geny odpornościowe.

Stąd: RGA (resistance gene analogs)

Opisy sekwencji w bazach danych są niedokładne. Lepsze kryteria:

wysokie podobieństwo do znanych genów R (E-value < 1e-10; unikanie propagowania fałszywych diagnoz) obecność i względne położenie domen charakterystycznych dla genów R (na podstawie przewidywanej sekwencji białkowej)

Poszukiwanie genów odpornościowych in silico (model)

Baza danych sekwencji ryżu(TIGR)

BLASTP na zdefiniowanym zbiorze sekwencji referencyjnych

HMM („odciski palców”)domen znajdowanych w genach odpornościowych

Odpytywanie powstałej struktury danych o RGA (analogi genów odpornościowych) poszczególnych

klas strukturalnych. Poszukiwanie nowych wariantów.

Narzędzia – BLASTP - wyszukiwanie sekwencji:

Możliwości: poszukiwanie podobieństwa pomiędzy sekwencjami w

dużych bazach. ocena prawdopodobieństwa przypadkowego wystąpienia

dopasowania do zapytania tak dobrego jak znalezione (E-value).

Pułapki: wyniki przeszukiwań są tak dobre jak zbiór sekwencji

referencyjnych (niewykryte niewielkie homologie, problemy z wszędobylskimi sekwencjami np. kinazami).

ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być zawsze prawdziwy. Omijamy tę wadę używając restrykcyjnych E-value (minimalizacja false positives).

Narzędzia - HMM - „odciski palców” domen:

Możliwości: poszukiwanie domen w sekwencjach białkowych. Takie

„odciski palców” są dostępne w bazach danych np. Pfam. ocena prawdopodobieństwa przypadkowego wystąpienia

dopasowania do „odcisku” tak dobrego jak znalezione.

Pułapki: HMMy są tworzone na bazie zbioru sekwencji

zawierających domenę – wyniki przeszukiwań są tak dobre jak początkowy zbiór treningowy (przykład: roślinna domena TIR).

ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być prawdziwy. Omijamy tę wadę używając empirycznie wyznaczonych gathering thresholds.

Sekwencje referencyjne (przeszukiwanie BLASTP):

Klasa Gen Patogen Żywiciel ACC

TIR-NBS-LRR

RPP5 Peronospora parasitica

Arabidopsis thaliana

AAF08790.1

N Tobacco Mosaic Virus

Nicotiana tabacum

A54810

L6 Melampsora lini Linum usitatissimum

T18546

M Melampsora lini Linum usitatissimum

AAB47618.1

CC-NBS-LRR

RPS2 Pseudomonas syringae

p.v. tomato


NP 194339.1

RPM1 Pseudomonas syringae

p.v. maculicola


NP 187360.1

Sekwencje referencyjne (przeszukiwanie BLASTP):Klasa Gen Patogen Żywiciel ACC

CC-NBS-LRR

I2 Fusarium oxysporium

t.sp. lycopersicon

Lycopersicon esculentum

AAD27815.1

Mla1 Erysiphe graminis f.sp. hordei

Hordeum vulgare

AAG3736.1

NBS-LRR

Pi-ta Magnaporthe grisea Oryza sativa AAK00132.1

Pib Magnaporthe grisea Oryza sativa BAA76281

Xa1 Xanthomonas oryza p.v. oryzae

Oryza sativa T00020

Pto Pto Pseudomonas syringae p.v. tomato

Lycopersicon esculentum

AAF76313.1

Rpg1 Hordeum vulgare Puccinia graminis f.sp. tritici

AAM76922.1

Sekwencje referencyjne (przeszukiwanie BLASTP):

Klasa Gen Patogen Żywiciel ACC

Cf-9 Cf-9 Cladosporium

fulvum

Lycopersicon

pimpinellifolium

CAA05274.1

Xa21 FLS2 flagellin receptor Arabidopsis thaliana

NP_199445.1

Xa21 Xanthomonas

oryzae p.v. oryzae

Oryza sativa T04313

SA-CC RPW8.1 Erysiphe

cichoraceum


AAK09266.1

RPW8.2 Erysiphe

cichoraceum


AAK09267.1

Rezultaty przeszukiwania (BLASTP i HMMer):

Klasa LiczebnośćTIR 1

CC-NBS-LRR* 109

CC-NBS * 70

NBS-LRR* 265

NBS* 153

Pto 545

Xa21 369 (304)*

Cf9 242(91)*

SA-CC 0

* Wliczając białka o fragmentarycznych NBS.

** W nawiasie liczba przypadków w których przewidziano domenę TM w

prawidłowej orientacji.

Lokalizacja RGA na chromosomach:

0

20

40

60

80

100

120

140

160

180

1 2 3 4 5 6 7 8 9 10 11 12

Chromosome

Num

ber

CC-NBS-LRR CC-NBS NBS-LRR NBS

Lokalizacja RGA na chromosomach:

0

20

40

60

80

100

120

140

160

180

200

1 2 3 4 5 6 7 8 9 10 11 12

Chromosome

Nu

mb

er

Pto Xa21 Cf9

Podsumowanie i uwagi:

1. Z 64574 przewidywanych przez IRGSP genów - około 2,7% (1744 sekwencje) są analogami genów R.

2. Przewidywane 597 sekwencji kodujących białka z domeną NBS, jest bardzo bliskie 600 sekwencjom uzyskanym w pierwotnym szacunku dla „draft sequence” ryżu (IRGSP, 2001). Rozkład tych sekwencji na chromosomach pokrywa się z częstościa występowania znanych genów R u ryżu.

3. Interesujące jest skupienie dużej liczby RGA zawierających domenę NBS na chromosomie 11 (28% znanych genów odpornościowych ryżu jest na chromosomie 11).

„An assessment of the resistance gene analogues of Oryza sativa ssp. japonica – their presence and structure”

Koczyk G., Chełkowski J.Cell Mol Biol Lett. 2003; 8(4):963-72

Przyszły kierunek:

2. Analiza genomu pszenicy przy pomocy znalezionych sekwencji ryżu (ze szczególnym uwzględnieniem sekwencji zawierających NBS) – obecny temat.

1. Szczegółowe badanie chromosomu 11 (duża liczba potencjalnych genów R, interesujące warianty strukturalne) – dla dokładniejszej sekwencji ryżu.

3. Uwagi:potrzeba wzięcia pod uwagę szybko zmiennych, olbrzymich ilości danych – klastrów EST (znaczna część danych)analiza sekwencji na poziomie DNA (nie białka)niemożliwe wyszukiwanie pełnych domen (średnia długość EST około 500 nt)

Nucleotide Binding Site – potwierdzone, znane motywy:

Motyw Najlepsze dopasowanie

P-loop VVSIVGFGGLGKTTLAQxVYN

Kin-2 KRYLIVIDDVW

RNBS-B GSRIIVTTRIxxVAK

GLPL CGGLPLAIKTIASLL

RNBS-D CFLYLSLFPED

EST fishing:

Selekcja153 sekwencje zawierające NBS, z chromosomów 11 i 12

Oryza sativa ssp. japonica

Przeszukiwanie>560,000 ESTs (etykietek ekspresyjnych) pszenicy.

Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji

motywów

Poszukiwany kandydat - przykład:gi|20112182|gb|BJ300496.1|BJ300496LENGTH = 672 COMBINED P-VALUE = 1.62e-26 E-VALUE = 8.1e-21 DIAGRAM: 241_[+1b]_177_[+2b]_158

[+1b] P-loop

2.4e-20 V..V..S..I..V..G..M..G..G..L..G..K..T..T..L..A..Q..Q..V..Y. + + + + + + + + + + + + + + + + + + + T..V..S..I..V..G..F..G..G..M..G..K..T..T..L..A..K..A..V..Y.226 GAAGCATCCATTGAAGACGGTTTCTATTGTTGGATTTGGTGGGATGGGCAAGACAACTCTTGCCAAAGCAGTGTA

obszar potencjalnie zmienny (projektowanie primera) .N.. + .D..301 TGACAAGCTCAAAGTGCAATTTGATTGTGGTGCCTTTGTTTCAGTTTCTCAAAATCCCGACATCAAGAAGGTTTT

[+2b] Kin-2 6.8e-15 K..R..Y..F..I..V..I..D..D..V..W.. + + + + + + + + + + + K..R..Y..L..I..V..I..D..D..I..W..451 GATCGATGAAATCATTGAATTTCTTAATGACAAGAGGTATCTCATCGTAATTGATGATATATGGAATGAAAAATC

- konserwatywne, dobrze dopasowane wystąpienia motywu

- podobieństwo do znanych genów odpornościowych

EST fishing:

Selekcja153 sekwencje zawierające NBS, z chromosomów 11 i 12

Oryza sativa ssp. japonica

Przeszukiwanie>560’000 ESTs (etykietek ekspresyjnych) pszenicy.

Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji

motywów (program MEME)

Konstrukcjaprimerów na podstawie rejonów zmiennych pomiędzy

konserwatywnymi motywami.

„Transgeneza i genomika roślin uprawnych”

Założona pod koniec 2003 roku Sieć Naukowa KBN.

Skupia zespoły naukowe z Poznania, Warszawy, Wrocławia, Radzikowa...

http://www.cropnet.pl

Poświęcona promocji wyników badań, koordynacji współpracy między ośrodkami członkowskimi, tworzeniu

i upowszechnianiu analiz bioinformatycznych.

„Transgeneza i genomika roślin uprawnych”

http://www.cropnet.pl

- porównywanie sekwencji (BLAST, WU-BLAST, CLUSTAL)- wyszukiwanie domen (HMMer, WISE-2.2, PRODIV-TMHMM)- wyszukiwanie zakonserwowanych motywów (MAST/MEME)- rekonstrukcja filogenezy (PHYLIP, NJTREE)- analiza sekwencji (EMBOSS)- predykcja struktury drugorzędowej białek (PSIPRED)- wyszukiwanie powtórzonych sekwencji (RepeatMasker)

Aktualny projekt badawczy: analiza zdarzeń insercji/delecji w genomach Arabidopsis thaliana Col-0 i Ler

Klastr obliczeniowy

KońcówkaKońcówka

KońcówkaKońcówka

Serwer sieciowy/Serwer baz danych

Dziękuję za uwagę

Documents

Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura