Upload
dangkiet
View
266
Download
0
Embed Size (px)
Citation preview
1
GENOMİK’E GENEL BAKIŞ Giriş
Rekombinanat DNA devriminin sonucundan köken alıp, günümüze kadar gelen
moleküler tıp ve genomiğin beklenen bilimsel ve tıbbi yararları oldukça önemlidir.
Şu anda içinde bulunduğumuz durum oldukça umut vericidir. Şu an elimizde, insan
genomunun tüm dizisi ve tek bir gen için potansiyel yaklaşımlar mevcuttur. Bu da,
sağlık ve hastalık alanında insan biyolojisi çalışmak için eşsiz bir fırsat sunmaktadır.
Benzer kaynaklar, önemli bazı patojenleri de içeren çok sayıda diğer organizmalar
içinde mevcuttur (tablo 2.1). Tıbbi araştırmaların odağı, şimdi genlerin sistematik
fonksiyonel evrimine ve mekanizmaların aydınlatılmasına doğru dönmüştür. İnsanı
daha sağlıklı kılmak için, biyolojik aktivitenin koordinasyonunda genlerin nasıl
fonksiyon gösterip, etkileşime girdiğinin tamamen anlaşılması, yeni terapilerin
gelişmesi için çok büyük bir fırsat sağlamaktadır.
Tablo 2.1 Sekanslanan bazı patojen( bakteri ve protozoalar) genomları
2
Gelişmenin Yeniden Gözden Geçirilmesi: İnsan Genom Projesi
Genomik (kutu 2.1), 1990’da İnsan Genom Projesi (HGP) resmen başlatıldığı
zaman, önemli ve bağımsız bir araştırma alanı haline geldi. Projenin en belirgin
amacı 15 yıl içerisinde 3000-Mbç’lik tüm insan nüklear genomunu sekanslamaktı.
Asıl sekanslama başlamadan önce pekçok başlangıç işin yapılması gerektiği kabul
edildi ve yeni teknolojilerin (kutu 2.2) geçerli kılınması için pilot projeler olarak, insan
genomuna ek olarak beş model organizmanın genomunun sekanslanmasının
gerektiği kabul edildi. İlk iş, DNA klonlarının fiziksel haritasının birleştirilmesi için
taslak görevi görecek olan insan genomunun yüksek rezolüsyonlu genetik haritasını
kurmaktı. Önce, genetik ve fiziksel haritalama evreleri tamamlandı daha sonra
sekanslama başladı.
Kutu 2.1 Genomik Nedir?
Genom terimi, 1920 yılında Alman botanikçi Hans Winkler tarafından tüm haploid
kromozom seti içindeki gen topluluğu olarak tanımlandı. Günümüzde bu terim,
sadece genleri değil haploid kromozom setindeki tüm DNA’yı ida çine alacak şekilde
genişletildi. Çünkü yüksek yapılı ökaryot genleri azınlıktadır. Örneğin; insan
genomunun sadece %2-3’ü genler tarafından temsil edilmektedir. Genom kavramı
çok eski olmasına rağmen, genomik terimi 1986’ya kadar kullanılmamıştır. Fare
genetikçisi Thomas Roderick bu terimi, genomun haritalanması, sekanslanması ve
karakterizasyonunu tanımlamak için önermiştir. Son zamanlarda genomiğin özü,
geniş ölçekli, baştan başa yüksek bir biyolojik analiz ile ilişkilendirilmiştir.
Fonksiyonel genomik; gen fonksiyon analizleri için çeşitli sistematik yaklaşımları
içine almaktadır. Transkriptomik, mRNA ekspresyonun geniş ölçekli analizidir.
Proteomik, proteinlerin geniş kapsamlı analizidir ve ekspresyon profilleri, etkileşimler
ve protein yapısının çalışılması şeklinde kısımlara ayrılmaktadır. Proteomik yeni
moleküler tıp için çok önemli bir unsurdur. Çünkü birçok ilaç hedefi, proteinlerdir.
3
Kutu 2.2 İnsan Genom Projesinin başlangıç hedefi olan model organizma genomları
Esherichia coli (bacteri) Drosophila melanogaster (meyve sineği)
Saccharomyces cerevisiae (yeast) Mus musculis (fare)
Caenorhabditis elegans (nematod)
İnsan genom projesinin belirtilen zaman çerçevesinde, hedeflerinin tamamlanması
için, haritalamada, klonlamada, sekanslamada ve bioinformatikde teknolojik
ilerlemelere gereksinim duyulmuştur. Başlangıç bütçenin büyük bir kısmı projeden
dolayı doğabilecek etik, yasal ve sosyal sorunlar için ayrılmıştır. Örneğin, projeden
elde edilen herhangi bir bilginin bireylere veya toplumlara karşı kullanılmasını
önlemek gibi.. (kutu 2.3)
4
Kutu 2.3 İnsan Genom Projesinin etik, yasal ve sosyal meseleleri (The ethical, legal, social issues (ELSI) of the Human Genome Project )
İnsan Genom Projesi resmen başlatılmadan
önce, projenin gerçekleşmesi ve elde edilen
bilginin yeni ve kompleks etik sorunlara
neden olabileceği kabul edilmişti. Endişe
duyulan belirli konular; örneklerin toplanması,
vericilerin gizliliği ve projeden elde edilen
genetik bilginin sonraki kullanımı ve
geçerliliğine ilişkin konulardı. Bundan dolayı
HGP’ye sponsor olan iki birleşmiş devletler
organizasyonu - The US Department of
Energy (DOE) ve National Institutes of Health
(NIH)- senelik HGP bütçelerinin (%3-%5)
önemli bir kısmını, projenin etik, yasal ve
sosyal sorunlarını (ELSI) çalışma amacında
olan program serilerine ayırdılar. ELSI
programlarının başlıca amacı, geniş oranda
ilgili gruplara danışarak eğitimi yükseltmek ve
izlenecek yoldaki kararlara rehberlik etmektir.
HGP ELSI programlarının en önemli
fonksiyonu, geçmişe yönelik olmaktan çok
projeyi tamamlayıcı özellikte olmasıdır.
Bundan dolayı problemler artmadan önce,
yeni teknoloji gelişmelerinin anlamlarını
önceden görerek ve önemli sorunlarda
açıklama yaparak yardım etmektedir.
ELSI programlarının başlıca amaçları
şöyledir:
•İnsan genom sekanslaması ve
haritalanmasının toplum ve bireyler için
etkilerini göstermek ve tahmin etmek
•İnsan genom sekanslaması ve
haritalamasının etik, yasal ve sosyal
sonuçlarını gözden geçirmek
• Sorunların kamuoyu tartışmalarını teşvik
etmek ve
• Elde edilen bilgilerin, bireylerin ve
toplumların yararına kullanılacağını garanti
edebilen politika seçeneklerini geliştirmek.
ELSI’nın amaçları birkaç yılda bir
güncellenmektedir son zamandaki amaçları
şunlardır:
• İnsan genetik varyasyon çalışmaları ve
insan DNA sekansının tamamlanması gibi
konulardaki sorunları gözden geçirmek
•Genetik teknolojilerin, sağlık tedbiri ve halk
sağlığı aktivitelerindeki bilgilerin integrasyonu
ile doğacak sorunları incelemek
•Klinik olmayan durumlarda gen-çevre
etkileşimleri ve genomik hakkında bilginin
birleşmesiyle artacak sorunların gözden
geçirilmesi
•Yeni genetik bilginin felsefik, tanrı bilimi ve
etiksel perspektif ile interaksiyonunun nasıl
olabileceğini incelemek
•Genetik servislerin kullanılması ve
politikaların gelişmesinin, ırksal, etnik,
sosyoekonomik faktörlerin, genetik bilginin
kullanımını, anlaşılmasını ve açıklanmasını
nasıl etkileyeceğini incelemek.
5
1980’li yılların ilk ortalarında HGP ilk kez tasarlandığında, günde sadece DNA’daki
yaklaşık 1000 nükleotidi sekanslamak mümkündü. Bu hızda, bilimadamları hiçbirşey
yapamıyordu fakat sekanslama tüm genomun tamamlanması için gerekliydi. Bilgilerin
verimini istenilen seviyede arttırmak için tamamen yeni sekanslama metodları
tasarlandı. HGP’si süresince birçok yeni method ortaya çıkmasına rağmen, yüksek
verim hedefine otomasyon ve var olan teknolojinin arttırılması ile ulaşıldı.
Günümüzde, bir kerede 96 örneği işleyebilen, ultra hızlı kapiller sekans aletleri
kullanılarak bir makine ile günde yarım milyon nükleotid sekansı şeklinde üretimi
arttırmak mümkün hale gelmiştir. Daha fazla sayıda makinenin kullanılması verimi
çok daha fazla arttırabilecektir.
GENETİK HARİTALAMADAKİ ATILIMLAR
Genetik haritalar, rekombinasyon frekansına dayanmaktadır ve model
organizmalarda farklı mutant suşlar arasında büyük ölçekli melezlemeler
gerçekleştirilerek kurulmuşlardır. Genetik haritaların prensibi kromozom üzerindeki
(daha muhtemel olarak mayoz sırasında krosover olduğu bölgeden) iki lokusu daha
ileri ayırmaktır.
Çaprazlanan döllerdeki mutant fenotiplerin yeni kombinasyonlarına bakarak, genetik
olarak uygun Drosophila ve maya gibi organizmalarda krosover sonucu oluşan
rekombinasyon olayları ölçülebilmektedir. Bu yaklaşım insan populasyonu için
kullanılamaz çünkü farklı kalıtsal hastalıklara sahip insanlar arasında büyük oranda
eşleşmenin olması gerekmektedir. Onun yerine, insan genetik haritaları, aile
pedigrilerinde bulunan DNA sekans polimorfizmi analizine dayanmaktadır (kutu 2.4).
HGP’den önce, düşük rezolüsyonlu genetik haritalar, RFLPs (restriction fragment
lenght polymorphisms) kullanılarak yapılıyordu. Bunlar doğal olarak restriksiyon
enzimleri ile kesilen ya da kesim noktası ortadan kalkan bölgeleri oluşturan
varyasyonlardan meydana gelmektedir ve bundan dolayı Southern blot’da farklı
büyüklükte bantlar oluşmaktadır (şekil 2.1). Fakat fiziksel haritalar için iskelet
oluşturmakta çok az ve çok geniş aralıklar oluşturması ile RFLP’nin kullanımı
problem yaratmıştır. İlk olarak RFLP haritaları 400 üzerinde markır ve 10cM’lik (yani
her 10Mb DNA için bir markıra denk gelmektedir ) rezolüsyona sahipti. Genomda
geniş olarak yayılmış ve fazlaca bulunan mikrosatellit olarak bilinen yeni polimorfik
6
markırların keşfedilmesi oldukça önemli bir buluş olmuştur (Şekil 2.2). 1992’de
fiziksel haritalama için uygun bir kalıp olan 1cM (her 1Mb DNA için bir markıra
denktir) rezolüsyonlu, mikrosatellitlere dayalı genetik harita yapılmıştır. 1996’da daha
fazla mikrosatellit markırı içine alan rezolüsyonu 0.5cM olan daha ileri bir harita
yapılmıştır. 2002 yılına gelindiğinde İzlanda’daki deCODE adı verilen bir konsorsiyum
tarafından en son harita, 0.2 cM rezolüsyonlu ve 5000’nin üzerinde markırı içine
alacak şekilde oluşturulmuştur. SNP ve haplotip projeleride aynı zamanda yüksek-
rezolüsyonlu genetik haritaların örnekleridir (kutu 2.4).
Kutu 2.4 İnsan Genomundaki Varyasyon
HGP için kullanılan DNA, adı bilinmeyen 12 gönüllüden alınmıştır. Akraba olmayan
herhangi iki insanın genom sekansı sadece %99.9 oranında benzerdir, tam bir
sekans yoktur. DNA’nın 3 milyon baz çiftindeki %0.1’lik fark çok ilginç bir şekilde bizi
birbirimizden ayırmaktadır. Kalıtsal hastalıklara yol açan gen mutasyonları bütün
olarak populasyonda oldukça nadirdir ve bundan dolayı bu varyasyonların sadece
çok az bir kısmından sorumlu olmaktadır. Çok büyük kısmı, çeşitli ve farklı
varyantların (allellerin) oldukça yaygın olduğu sekans polimorfizmlerinden
oluşmaktadır. Bu varyasyonlar, genetik haritanın oluşturulmasında markır olarak
kullanılmaktadır. Çünkü hibridizasyon veya PCR yöntemleri allelleri tanımlamak ve
tespit etmek için kullanılmaktadır. Bundan dolayı aile ağacında rekombinasyonların
olup olmadığı kanıtlanabilmektedir.
Varyasyonların Tipi Polimorfik sekans varyasyonunun yaklaşık %95’i tek nükleotid polimorfizmi (SNP)
olarak tanımlanmaktadır. Yani tek nükleotid pozisyonları, bazı insanlarda tek bir baz
için diğer insanlarda ona alternatif bazı ifade etmektedir. Genlerdeki ve etrafında
bulunan polimorfizmler, belirgin fenotipik etkiler gösterebilmektedir (örneğin;
polimorfizm saç rengini etkileyebilmektedir). Bunun yanında birçok insanda, SNP’lerin
etkisi çok daha karmaşık olabilmektedir. Örneğin, hastalıklara yatkınlığı veya belirli
ilaçlara cevap şeklini etkileyebilmektedir. SNP’lerin büyük çoğunluğu genlerin
dışarısında bulunmaktadır ve belkide etkisi yoktur. Ama, hala genetik markır olarak
oldukça yararlıdırlar. Bazı SNP’ler restriksiyon enzim kesim bölgeleri oluşturarak ya
da ortadan kaldırarak, Southern blotda görülen bant paternlerini değiştirirler. Bu
7
restriksiyon fragment uzunluk polimorfizmleri (RFLP’ler) insan genomu için ilk geniş
kapsamlı genetik haritanın oluşturulmasında kullanılmıştır.
Sekans polimorfizminin kalan %5’i mikrosatellitler olarak bilinen basit sekans tekrar
polimorfizmleri (simple sequence repeat polymorphism (SSRPs)) olarak
bulunmaktadır. Bunlar çeşitli sayıda kısa tekrar dizileridir. Mikrosatellitlerin en yaygın
formu CA (n) tekrarıdır. n= tekrar sayısını göstermektedir. Genelde 5-50 arasındadır.
SNP’lerden farklı olarak, mikrosatellitler çoklu allelleri içerirken (yani 12, 22,31 tekrarlı
yaygın varyantlar), SNP’ler genellikle iki alternatif formdan biri olarak görülür.
Mikrosatellitler nadir olarak genlerde bulunmaktadır ve bulundukları zaman patojenik
etkilere neden olurlar (Örneğin, Huntington hastalığı). Fakat geniş oranda
yayılmışlardır ve yüksek rezolüsyonlu haritaların oluşturulmasında kullanılmaktadır.
HGP’nin fiziksel haritalama evresi, mikrosatellit markırlarına dayalı genetik haritanın
taslağı olarak kullanılmaktadır.
Varyasyonların Çalışılması İnsan varyasyonları uzun yıllardır adli analizlerde kullanılıyordu fakat tüm genomu
kaplayan varyasyonlara ilgi, HGP ile büyümeye başladı. İnsan sekans çeşitliliğinin
evrensel etkisini çalışmak için, Human Genome Diversity Project (HGDP) 1991
yılında HGP’nin yan projesi olarak başlatıldı. Bunun yanında küçük bir kaynak da aldı
çünkü projenin başlıca amacı insan orijinleri ve populasyon tarihi çalışmalarında farklı
etnik gruplar için uygun markırı bulmaktı. SNP- haritaları projesi için hem genel hem
özel çok fazla destek vardı. Çünkü bu tıbbi araştırmalar için somut yarar
sağlayacaktı. SNP’ler ve hastalık yatkınlığı arasındaki ilişkinin tanımlanabilmesi,
bireylerin genoyipine dayalı olarak ilaçların bireylere uygun hale getirildiği, yeni
medikal alan farmakogenetiğin temelini oluşturan ilaç yanıtı ve SNP’ler arasındaki
ilşkiyi ve hastalık genlerinin keşfedilme hızını büyük oranda artıracaktır.
Uluslararası SNP konsorsiyum Ltd. 1999’da sistematik SNP haritalama projesine
başladı ve 2001 yılı itibari ile neredeyse 1.000.000 SNP’ yi içeren harita oluşturuldu.
Son zamanlarda, haplotip kalıpları ile birlikte kalıtılan SNP gruplarıda gösterildi.
Tahmin edilen 10 milyon SNP, 200 bin kadar haplotip tarafından gösterildi ki bu da
hastalık ilişkilerini saptayan mekanizmayı daha kolaylaştırdı. Genom aracılığı ile
haplotipleri haritalama amacı olan International HapMap Projesi 2001 ocak ayında
başlatıldı.
8
Şekil 2.1 RFLP, restriksiyon bölgesini ortadan kaldıran veya oluşturan dizi
varyantlarıdır bundan dolayı prob tarafından tespit edilen restriksiyon fragment
uzunluğu değişmektedir. Üstteki panel iki alternatif alleli göstermektedir. Burada üç
restriksiyon bölgesinden ortadaki bölgenin olup olmamasına bağlı olarak spesifik
probun uzunluğunun değişmesiyle restriksiyon fragmentleri tespit edilir. Alleller a ve
b, Southern blotda farklı büyüklükte hibrid bant oluşturur. Bu da allellerin aile ağacı
aracılığı ile ortaya çıkmasına izin verir. Örneğin çocuk II.2 a allelinden iki kopya
(anne ve babadan bir tane) çocuk II.4 bir kopya a allelinden, bir kopya b allelinden
taşımaktadır.
Fiziksel Haritalamadaki Buluşlar
Genetik haritalardan farklı olarak, fiziksel haritalar asıl DNA birimlerine
dayanmaktadır ve bundan dolayı sekanslama için uygun temel oluşturmaktadır.
HGP’nin fiziksel haritalama evresi genomik DNA kütüphanelerinin oluşturulması ve
kontigleri oluşturmak için çakışan klonların bir araya getirilip tanımlanmasını
9
içermekteydi. (Kontig, genomdaki bitişik segmentleri temsil eden bütün klon serileri )
HGP başladığı zaman, klonlama için uygun vektörler, maksimum insert büyüklüğü 40
kbç olan kozmid vektörlerdi. Fakat, fiziksel haritaları bir araya getirmek için yüzlerce
binlerce kozmid klonun taranması gerekliydi. Bu nedenle daha büyük insert alabilen
klonlama vektörlerine ihtiyaç duyuldu. Genomik çatı üzerindeki klon kontiglerini bir
araya toplamak ve çakışanları bulmak için aynı zamanda yeni yaklaşımlara
gereksinim vardı.
Şekil 2.2 Mikrosatellitler, 1-2 nükleotid uzunluğundaki, kısa, birbiri arkasına dizilmiş
tekrar dizilerinin kopya sayısına bağlı olarak restriksiyon fragmentlerinin veya PCR
ürünlerinin uzunluğunda fark oluşturan sekans varyantlarıdır. Üstteki panel, dört tane
alternatif allleli göstermektedir. Burada tandem tekrarların değişken sayısına bağlı
olarak spesifik probla saptanan restriksiyon fragment uzunluğu fark göstermektedir.
10
Dört allelin hepsi, Southern blotda, farklı büyüklükte bant ya da farklı büyüklükte PCR
ürünü gösterir. RFLP’den farklı olarak, mikrosatellitler için çoklu allelizm yaygındır.
Böylece tam bir kalıtım paterni takip edilebilir. Örneğin, anne b/d; baba a/c allelini
taşımaktadır. İlk çocuk II.1 b allelini annesinden, a allelini ise babasından almıştır.
Klonlama vektör teknolojisi olmasına rağmen, gerekli bir buluş, çok daha büyük
insertleri alabilen yapay kromozom vektörlerinin gelişmesi ile ortaya çıkmıştı (Şekil
2.3). Bu tür ilk vektör yeast artificial kromozomları (YACs) idi. Bu vektörler 1Mbç’nin
üzerinde insert taşıyabilmekte ve tüm genom için gerekli olan 10.000’nin üzerindeki
klon sayısını azaltmaktadır. YAC’ larla ilgili bir problem, kimerik insertleride içine alma
eğilimiydi, (yani, insertler genomdaki iki ya da daha fazla bitişik olmayan bölgeden
DNA segmentlerini içermekteydi). Bundan dolayı, sekanslama için kullanılacak son
fiziksel haritayı oluşturmak için yüksek doğrulukta vektörlere gereksinim duyuldu.
BACs (Bacterial Artificial Chromosomes ) ve PACs (P1 Artificial Chromosomes)
vektörleri, stabil yapıları ve nispeten büyük insert almaları (200-300 kbç) nedeniyle
seçildi.
Fiziksel klonları kontigler şeklinde bir araya getirmek için, çeşitli stratejiler
tasarlanmıştır. Bunların hepsi, bitişik klonlar arasındaki overlap (çakışan) eden
bölgelerin tespitini içermekteydi. Bunlar:
• Kromozom walking: Bu teknikte yaygın olarak pozisyonel klonlama ve birbiri
ile overlap eden kısımları tanımlamak için hibridizasyon probları olarak
klonların kullanılması basamakları bulunmaktadır. Alternatif olarak, her
klonun son sekansı primer çiftlerinin dizaynında kullanılmaktadır ve overlap
eden klonlar PCR ile tespit edilmektedir.
• Restriksiyon enzim fingerprinting: Bu teknik klonların restriksiyon enzimleri
ile kesimini kapsamaktadır. Overlap eden iki klon, belirli sayıdaki benzer
restriksiyon fragmentlerini paylaşır. Bu paternler komplekstir ve bilgisayarlar
tarafından yorumlanmaktadır (şekil 2.4).
11
Şekil 2.4 Restriksiyon –fragment fingerprintig temel prensipleri. a) İşaretli
restriksiyon fragmentlerinin oluşturulması b) Dört farklı klondan oluşturulmuş
paternler c) b’de gösterilen bilgilerden oluşturulan kontig haritası
• Repetetiv DNA fingerprinting: Daha önce belirtildiği gibi, restriksiyon
fragmentlerinin Southern blotları Alu gibi genoma yayılmış tekrar dizileri için
problanabilir. Genoma yayılmış (her 4kbç’de bir) Alu elementlerinin bir
milyonun üzerinde kopyası bulunmaktadır. Böylece tipik bir 100- Kbç’ lik BAC
klonu 20-30 tekrar içerecektir. Çakışan klonlar, belirli oranda hibrid bantlarını
paylaşacaktır. Repetetiv DNA’ya dayanan PCR bazlı fingerprinting testlerde
kullanılabilmektedir.
• STS Haritalaması: STS’ler (Sequence tagged site) genomda 100-200 bç
uzunluğunda tek olan dizilerdir ve PCR ile kolayca saptanabilmektedir. Eğer iki
12
klon aynı STS’i paylaşırsa overlap eden bölge tanımlanarak kontig olarak
birleştirilebilmektedir. HGP’de kontiglerin oluşturulmasında STS haritalama oldukça değerli bir stratejidir.
1995’de fiziksel referans haritanın 200 kbç uzaklıkta 15.000 STS markır içerdiği
yayınlanmıştır. Bundan dolayı, belirli STS markırlarını içeren klonlar, sadece diğer
klonlarla olan ilişkilerini değil, kromozomal lokalizasyonları tam olarak gösteren
referans haritalar için yerleştirilebilir. Önemli olarak, STS’lerin bazıları içerdikleri
polimorfik mikrosatellit sekanslar nedeniyle genetik markır olarak kullanılabilmekte ve
genetik harita ile bütün oluşturmaktadır. EST’ler (Expressed sequence taqs), cDNA
klonlarından türemiş ve bundan dolayı genlerin pozisyonunu tanımlamaktadır.
Şekil 2.3 İnsan genom projesinde çok değerli olan iki yapay kromozom vektörü. a)
Yeast artificial kromozom; maksimum insert büyüklüğü 2Mbç kadar, TEL, telomer;
TRP, triptofan sentezi seçici markırı; ARS, maya için replikasyon orjini; CEN,
sentromer; Leu, lösin sentezi seçici markırı. b) Bakteriyel artificial kromozom,
maksimum insert büyüklüğü 200 Kbç kadar. CMR , antibiyotik dirençlilik markırı; oriS/
repE, replikasyon için gerekli dizileri, parA/parB, regülasyonun kopya sayısı için
gerekli diziler; oklar; T3 veT7 RNA polimeraz için gerekli promotorları göstermektedir.
Bu polimerazlar insertin son sekanslarına uygun işaretli probların hazırlanmasında
kullanılır.
13
SEKANS STRATEJİLERİ Tüm hücresel genom projeleri, şekil 2.5’ de açıklanan oldukça önemli zincir
sonlandırma sekansı teknolojisine dayanmaktadır. Çok gelişmiş aletler olsa da,
reaksiyon başına iyi bir sekans için 600-700 nükleotidden fazlasını okumak zordur.
Bundan dolayı BAC veya PAC gibi vektörlerin (200kbç’ne kadar) büyük insertlerinin
sekanslaması yerine, daha kısa parçalara ayrılarak ayrı ayrı sekanslanmasıdır. Bu da
genellikle insertlerin kesilerek 1-2 kb uzunluğundaki fragmentlere ayrılması ile
meydana getirilmektedir. Tüm sekans bilgileri bilgisayara girilir ve overlap eden
parçalar aranır ve orijinal insertdeki tüm sekans bir araya getirilir. Bu yaklaşım
shutgun sekanslama olarak bilinmektedir.
Şekil 2.5 Zincir sonlandırıcıları olarak,
dideoksinükleozid trifosfatlar
ile DNA sekanslaması.
Şekilde yıldız işaretleri, 32P’un olduğunu
göstermektedir. ”d” öneki
dideoksinükleozid varlığına
işaret etmektedir. Şeklin en
üstündeki sekanslanmış
DNA kutu içine alınmıştır.
Primer radyoizotop ile
işaretlenmedikçe, dizisi
CGTAAGGdC olan en küçük
bant otoradyografi ile tespit
edilemez.
14
Kutu 2.5 İnsan Genomunun STS (sequence tagged sites) Referans Haritası
STS’ler genomda tek olarak bulunan, 100-200 bç uzunluğundaki DNA dizileridir ve
PCR ile kolayca tespit edilebilmektedirler. Averaj mesafesi 200kb olan 15.000 STS
markırı içeren insan genomunun fiziksel referans haritası 1995’de yayınlanmıştır. Bu,
BAC ve PAC klon kontiglerini biraraya getirmek için taslak olarak ve bitişik klonlar
arasındaki çakışan bölgeleri tanımlamak anlamında kullanılmıştır. STS markırları ilk
önce nerden geldi ve harita nasıl oluşturuldu?
STS markırları üç kaynaktan çıkmıştır.
• Bazı mikrosatellit markırları genetik haritadan alınmıştır. Mikrosatellitler, tekrar
dizilerinin yanında bazı tek DNA dizilerini içerdikleri sürece STS markırlarına
benzemektedir.
•cDNA kütüphanesindeki klonların rasgele sekanslanması ile üretilen kısmi cDNA
sekansları EST olarak bilinmektedir. Bunlar sadece tek olan genlerden geldiği sürece
STS markırı olarak kullanılmaktadır (gen aileleri üyelerine zıt olarak).
•STS markırlarından geriye kalanlar, rasgele genomik klonlardaki tek sekanslardan
türemişlerdir.
Birbirleriyle ilişkili STS markırlarının haritalanmasında ustalık isteyen bir konu,
referans haritayı oluşturmasında, radyasyon hibrid panel tipleyicileri olarak
gösterilmiştir. Bu klasik bir fiziksek haritalama tekniğidir. Teknikte, insan hücreleri
lethal olarak ışına tabi tutulur ve bireysel kromozom fragmentleri insan hücrelerinin
rodent hücrelere fizyonu ile kurtarılır. Farklı insan kromozomlarını içeren hücre
panelleri, STS markırlarının bulunması için PCR ile test edilebilir. Genetik haritalama
da olduğu gibi, yakın iki markır birbiriyle birliktedir ve çok az ihtimal ayrı bulunur (bu
durumda krosoverdan ziyade kromozom fragmentasyonu ile). Bundan dolayı bir çok
hibrid hücrenin analizi, hangi markırın aynı kromozom fragmenti üzerinde birlikte
bulunduğunu gösterecektir. Bu da markırların düzenli olarak kurulmasına izin
verecektir. Bu, YAC kütüphanelerindeki iki ya da daha fazla bitişik STS markırının
varlığının testi ile doğrulanmıştır.
15
Şekil B 2.5 a) Radyasyon hibrid haritası. Rodent hücreler ve lethal olarak
radyasyona tabi tutulmuş hücreler heterokaryon (iki çekirdekli hücreler) oluşturmak
üzere füzyona tabi tutulur. Hasarlı insan kromozomlarından hibrid çekirdek oluşturan
bu kombinasyonlar elenir. Sonuçta rodent hücreleri bir veya daha fazla insan
kromozom fragmentini içerir. Bu tür hibridlerin paneli tüm insan genomu için
oluşturulabilir. STS markırları için bu tür panellerin sistematik testi, referans fiziksel
haritayı oluşturur.
b) Bu, YAC insertlerinde bu tür markırların varlığını saptamak için testlerle rafine
edilmiş ve doğrulanmıştır.
16
HGP, aşamalı (hiyeyarşik) shotgun stratejisini kullanmıştır. Shotgun sekanslama, her
bir BAC klonlarının insertlerine teker teker uygulanmıştır. Çünkü her BAC neredeyse
bu evrede fiziksel olarak haritalanmıştı , fiziksel referans harita üzerindeki sekans
pozisyonu kolaylıkla saptanmıştı. 1999’da özel olarak finanse edilmiş U.S.
biyoteknoloji şirketi Celera Genomik tarafından insan genom sekanslaması alternatif
tüm genomu kaplayan shotgun stratejisi kullanılarak başlatıldı. Bu yöntemde, shutgun
sekanslaması tüm genomik DNA üzerine uygulandı. Haritalama için faydası yoktu.
Güçlü bilgisayarlar yerine, tüm genom, kısa 600-700 nükleotidlik okumalar ile
biraraya getirilmiştir. Projenin koordinatörü Craig Venter, 1995’de ilk hücresel
genomu tanımlamak için tüm genomu kapsayan shotgun tekniğini kullanmıştı ve özel
ve kamusal projelerin birleşiminin katılımıyla, Drosphila Melanogaster genomunun
ökromatik kısmının sekanslanması için kompleks ökaryotik genom üzerinde
kullanımınıda yasalaştırmıştı (tablo 2.2). Klon-by-klon ve tüm genomu kapsayan
shotgun metodu şekil 2.6’da karşılaştırılmıştır. Sonuçta, klon-by-klon yaklaşımı
başlangıç haritalama ihtiyacından ve klonları toplama safhalarından dolayı daha
yavaştı. Fakat bitmesi daha kolaydı çünkü aşamalı olarak sekansın biraraya
getirilmesi bilgisayar kaynaklarına nazaran daha az çaba gerektiriyordu. Tersine, tüm
genom shotgun methodunda bilgi hızlıca oluşturulmakta, biraraya getirme safhası
özellikle insan genomundaki fazla sayıda veya repetetiv DNA’dan dolayı daha fazla
uğraştırıcıydı. Gerçekten de Celeranın kendi draft sekansını tamamlamasında, HGP
tarafından oluşturulan hem sekans bilgisini hem de haritalama bilgisini kullandığı
gösterildi (her ikiside internet üzerinden serbest). Kamuya ait HGP ve Celera birlikte
2000 yılında draft sekansın tamanlandığını duyurdular ve sekanslar 2003 yılında bitti
(kutu 2.6).
17
Şekil 2.6 Genom sekanslama stratejileri. En üst panel yedi adet fiziksel markır ile 2-3
Mb uzunluğundaki genomik DNA’yı göstermektedir. Markırlar dikey çizgilerle
gösterilmiş STS dizileridir. Solda gösterilmiş klon-by-klon yaklaşımında genomik
DNA, belirleyici overlap bölgeleri tarafından haritalanan ve markırlar kullanarak
referans fiziksel haritalar üzerine yerleştirilmiş BAC vektörlerine klonlanır. Genomik
bölgenin kaplanması için BAC insertleri biraraya getirilir. Her bir BAC (örneğin;
soldaki BAC a ve b markırlarına karşılık gelir) gelişigüzel olarak küçük parçalara
bölünerek shotgun sekanslanır. Sekanslar yeniden bilgisayar aracılığı ile tekrar
biraraya getirilir ve tamamlanan sekanslar harita üzerine yerleştirilir. Tüm genom
shotgun sekanslamasında (sağda gösterilen) genomik DNA shotgun sekanslanır ve
bilgisayar ile biraraya getirilir. Küçük genomlar için referans harita gerekli değildir.
Fakat insan genomu gibi büyük genomlar için gereklidir. Sekansların düzgün olarak
biraraya getirilmesine yardımcı olmak için daha önce var olan haritaların kullanılması
gerekliydi.
18
Şekil 2.7 Tekrarlayan DNA’nın neden olduğu problemler.Yukarıdaki panel, dağılmış
ve tandem tekrarlar taşıyan BAC klonundan bir DNA insertünü göstermektedir. Bu
insert shotgun sekanslandığında tekrarlar yerleştirilirken hata yapılabilir. Örneğin İki
iç tekrar yok sayıldığında, solda iki bitişik klon arasında yanlış bir çakışma meydana
gelebilir. Dağılmış tekrarlar olması durumunda, yanlış çakışmalar aynı zamanda
genleride içerebilen tek DNA dizilerini yok sayabilir.
GENOMUN YORUMLANMASI
Genom projesindeki ilk sekans sonrası iş, genomun yorumlanması yani, sekansdaki
yararlı biyolojik bilginin türetilmesi idi. Aslında bunun anlamı, genlerin ve genomun
fonksiyonel bileşenleri olarak tanımlanan genlerin düzenleyici elementlerini bulmak
ve büyük bir medikal ilişkiye sahip olmaktı.
HGP’nin en başından beri genlerin üzerine, EST’lerin büyük koleksiyonlarını
oluşturmak için, cDNA klonlarının yüksek–verili sekanslamasını içeren güçlü bir
odaklanma vardı. Yukarıda tartışıldığı gibi, EST’ler cDNA kütüphanelerinden,
tercihen sekansın tamamlanması için 8-10 okuma gerektiren, rasgele seçilmiş
klonların sekanslaması ile elde edilen 100-200bç’lik cDNA fragmentleridir. Bundan
dolayı, kısa ve hatalı olmasına rağmen EST’ler kendi doğruluklarında fiziksel
markırlar olduğu gibi gen sekansının oluşturulmasında hızlı ve ucuz bir yol sağlarlar.
Yaklaşık 100.000 ESTs, YACs ve radyasyon hibrid tiplemesi ile genom üstüne
haritalanmıştır. Elbette, sadece bütün bu sekanslar bireysel genleri temsil etmez ve
overlap eden ESTs’ lerin kombinasyonu ile gereksiz olmayan gen setlerinin
tanımlanması için girişimde bulunulmuştur (örneğin; UniGene Project:
http//www.ncbi.nlm.nih.gov/Unigene/). İlk kapsamlı gen haritası 1996’da
oluşturulmuştur ve yaklaşık 20.000-30.000 gen için kanıt sağlamıştır. Bu zamanda,
insan gen kataloğunun sadece küçük bir kısmı göz önünde tutulmuştur.
19
Tablo 2.2 Genom Projesinin Dönüm Noktaları
Yıl 1977
Organizma Bacteriophage φX 174
G.Büyüklüğü 5.38 kb
Açıklamalar İlk genom sekanslandı. Gelecek genom projeleri için baskın olacak yeni sekans methodlarının (zincir sonlandırması gibi) onaylanması.
1995 1996 1997 1998 2000 2001 2002 2003
Haemophilus influenzae Mycoplasma genitalium Saccharomyces cerevisiae Methanococcus jannaschii Esherichia coli Caenorhabditis elegans Drosophila melanogaster Arabidopsis thaliana Homo sapiens Fugu rubripies Mus musculus Plasmodium falciparum, Anopheles gambie
1.8 Mb 0.58 Mb 12 Mb 1.66 Mb 4.7 Mb 97 Mb 165 Mb 125 Mb 3000 Mb 400 Mb 2800 Mb
İlk hücresel genom, ilk bakteriyel genom ve ilk insan patojeni sekanslandı. Tüm genomu kapsayan shotgun methodu kullanılarak 3 aydan kısa bir zamanda başarıldı. Bilinen en küçük hücresel genom İlk ökaryotik genom, önemli model organizma,uluslararası işbirliğinin harekete geçmesine sebep olan örnek İlk achaean genomu Çok önemli bakteriyel model türleri. İki yarışçı grup tatafından bağımsız olarak sekanslandı. İlk çok hücreli organizmanın genomu ve ilk hayvan genomu sekanslandı. Insan biyolojisi için önemli model organizma, Celerayı da içeren özel ve kamusal organizasyonların işbirliği finanse edilerek sekanslandı. İlk bitki genomu İnsan genomu, HGP ve Celera tarafından bağımsız olarak sekanslandı. Minimal repetetiv DNA ile en çok bilinen vertebrat genomu, pufferfish genomu, insan genlerinin tanımlanmasına yardım etti. Fare, kapsamlı bir memeli model olarak insan hastalıklarının çalışmasında kullanıldı.İnsanlara yakın olan organizmalar sekanslandı İlk ökaryotik parazit, malaria parazit (P.falciporum) sekanlandı. Vektörü (sivrisinek A. gambie )’nün yayınlanmsı ile belirgin ir başarı elde edildi.
20
2001’de genom sekansı hazır hale geldiğinde, önemli sayıda yeni genin açığa
çıkacağı umut edilmişti. Fakat sürpriz bir şekilde toplam gen sayısı beklenenden
daha düşük çıktı. Bugünkü tahminler, 30.000’den daha az gene sahip olduğumuzu
önermektedir. Bunlar ise nematod Caenorhabditis elegans ‘dan sadece % 50
fazladır. Tam sayısı güvenli bir şekilde kanıtlanamaz çünkü bazı genlerin
tanımlanması veya doğru şekilde tanımlanarak gösterilmesi zor olabilmektedir. Bir
gen şöyle tahmin edilmektedir.
• Sekansın ifade edildiğine dair kanıt vardır.
• Sekans bilinen bir gene veya ETS’ye (ya insan veya başka türden)
homologtur.
• Sekans genin ayırd edici özelliklerini taşır. Örneğin, promotor, splays bölgesi,
polyadenilasyon bölgesi veya ekzonun varlığını gösteren baz içeriği gibi...
Bilgisayar algoritimleri, hem genlerin “ab initio” (ilk prensiplerden gen benzeri
özellikleri aramak) hem de homoloji temeli üzerine araştırılmasında kullanılmaktadır.
Bu da gen sayısının hem beklenenden az hem de beklenenden çok olmasının
kavranmasını sağlar. Örneğin, eğer sekans bilinen bir genle güçlü bir homoloji
gösteriyorsa fakat gerçekte bir pseudogen ise (fonksiyonel olmayan gen kalıntıları)
veya tahmin artifact (kütüphaneler oluşturulurken genomik sekanslar bazen cDNA
klonlarına katılabilir) cDNA sekansına dayalı ise genler yanlış tahmin edilebilir. Diğer
yandan, gerçek genler çok düşük seviyede ifade olursa veya cDNA
kütüphanelerindeki nadiren bulunacağı için hücre populasyonlarında veya genin
özellikleri bilgisayar tarafından tespit edilmediğinde (bu özellikle non-coding RNA gibi
atipik genlere aittir) gerçek genler kaçırılabilir. İnsan genlerinin tanınması zor
olmaktadır. Çünkü genellikle büyüktürler fakat büyük intronlar tarafından belirli
sayıda küçük ekzonlara bölünmüştür. Bundan dolayı gen tanımlansa bile, ekzonların
kaçırılmış olması veya gen sınırlarına yanlış karar verilmesi olasıdır.
Büyük intronlar arasına gizlenmiş küçük insan genlerinin olduğu örnekler
bulunmaktadır. Belkide insan gen kataloğunun doğru ve tam olarak oluşturulması çok
zaman alacaktır.
21
Sekanslamanın daha ileriki safhasındaki belirgin bir konu, sekans bilgisinin
sunulmasıydı ve ilişkili gen yorumları idi. Bu problem, bilgiyi göstermek için front-end
grafiksel kullanıcı arayüz kullanan ve kullanıcının genomunu farklı rezolüsyonda
gösteren ekranlar arasında geçiş yapmasına izin veren genom browserlarının
geliştirilmesi ile çözülmüştür. Örneğin, EnsEMBL browser (http:// www.ensembl.org)
tüm genomu kromozom serileri halinde görülmesine izin verir. Kromozom üzerine
tıklandığında, kullanıcı, belirli subkromozomal bölgesine odaklanarak rezolüsyonu
yavaş yavaş tek nükleotid seviyesine kadar arttırır (şekil 2.8.). Herbir kromozom
segmenti, genlerle, markırlarla ve daha fazla kullanılabilir bilginin düzenli olarak
yenilenmesi gibi diğer özellikler ile geniş olarak yorumlanmaktadır. Bunlar, genlerin
fonksiyonu ve yapısı hakkında ve diğer organizma genomlarındaki ilişkili genler
hakkında daha fazla bilgi veren yaygın olarak kullanılan linklerdir.
Kutu 2.6 Draft Sekans ve Bitmiş Sekans Şubat 2001’de draft insan genom sekansının tamamlandığı ilan edildiğinde büyük bir
bilimsel başarı olarak müjdelendi. Fakat, sekans, genomun %90’ınından fazla değildi
ve bilgilerin çoğu hamdı. Draft sekansı, bitmiş sekans haline getirmek için yapılacak
neler kalmıştı? Heterokromatin
Eksik dizilerin çoğu heterokromatinleri, her kromozomun primer olarak sentomer
bölgesinde sıkıca paketlenmiş DNA’ yı, temsil eder. Bunlar, klonlanması zor olan,
büyük tandem repat bölgelerini içerirler. Bazı heteromerik DNA’lara belkide ebediyen
ulaşamayacağız ve insan genom sekansı asla tam olarak tamamlanamayacaktır.
Fakat, çok az bir gen heterokromatinde bulunduğu için genomun medikal
uygulamaları üzerine etkisi olmayacaktır.
Boşluklar
Boşluklar, örnek hatalarından dolayı tüm sekanslamalarda ortaya çıkmaktadır.
Örnekleme hataları, kütüphanelerin oluşturulması sırasında (genomun bazı kısımları
kütüphanede gösterilmemiştir) ve sekanslama sırasında (bazı sekanslar seçilmemiş
olmaktadır ) ortaya çıkmaktadır. Boşlukların kapatılma stratejisi, çoklu genomik
kütüphanelerin kullanılmasını ve bilinen kontiglerin uçlarından dışarıya yönelik PCR
primerler ile DNA’nın çoğatılmasını içermektedir. Draft genom sekansında yaklaşık
50,000 boşluk bulunmaktaydı.
22
Tamamlanmamış Sekans
Otomatik sekanslama, bilgiyi farklı bazları gösteren piklerden oluşan sekans izleri
şeklinde göstermektedir (şekil B2.6). Beklenen hatalardan korunmak için, tamamlandı
demeden önce genomun her bir kısmı bağımsız olarak 8-10 kez sekanslanmıştır.
Sekansın niteliği, PHRED gibi her pik için skoru değerlendiren bilgisayar programları
kullanılarak değerlendirililmiştir. Eğer sekansın kalitesi yeterli değilse, bu kabul
edilmez ve tekrar gerçekleştirilmelidir. Hem HGP hem de Celeranın, draft
sekanslarının sadece %25’i bitmiş niteliktedir.
Gelecek: Fonksiyonel Genomik Şu anda 30 bin dolayında insan geni olduğunu biliyoruz. Bir sonraki iş ise , bunların
ne yaptığını bulmaktır. Biliyoruz ki kalıtsal hastalıklar, gen işlevlerinin bozukluğu
nedeniyle oluşmaktadır. İlaçlara, pathojenlere, diğer çevresel etmenlere olan
yanıtımız genler tarafından beklirlenmeketedir. Ayrıca genler belirli çevresel
bileşenleri içeren astım gibi hastalıklara yatkınlığımızı da etkilemektedir.
Geleneksel methodların kullanılmasıyla gen-hastalık veya gen ve yanıt arasındaki
ilişkiler açısından sadece 1500’e yakın gen aydınlatılmıştır ve her defasında da bu
aydınlatma yolu yavaş ve zahmetli olmuştur.
Fonksiyonel genomiğin amacı, yeni ve yüksek kapsamlı teknolojiler kullanarak büyük
oranda genlerin fonksiyonunu saptamaktır. Bu teknolojiler bu nedenle tıbbi keşfin
yeni araçlarını temsil etmektedir. Tüm hedef, sağlıklı vücut aktivitelerinin
koordinasyonu için, genlerimiz arasındaki ilişkiyi veya onların protein ürünlerini tam
olarak öğrenmektir. Bu aktiviteler bozulduğu zaman, moleküler düzeyde ne olduğunu
anlamamız gerekir bu da daha etkili terapilerin gelişmesine ve sağlanması için bize
olanak verecektir. Aynı ilkeler, bizim patojenlerimizin proteinleri ve genleri içinde
geçerlidir. Onlar hakkında daha fazla bilgi elde ederek, vücudumuzda proteinlerle
nasıl etkileşime girdiğini bilmek, bize enfeksiyon hastalıklarının etkilerini
23
sınırlamamıza yardımcı olur. Fonksiyonel genomikteki platformlar çeşitli anahtar
alanlara ayrılmıştır Bunların ilkeleri ve uygulamaları aşağıda tartışılmıştır.
Fig. 2.8 EnsEMBL’dan bir ekran, kromozom 5, p13.2 bandına genel bakış ve bu
banttaki 100kb’lık bölgeye detaylı bakış görülmektedir. Sayfanın aşağısında DNA
sekans ve translasyon dizileri okunabilmektedir.
24
SEKANS KIYASLAMASI VE KARŞILAŞTIRMALI GENOMİK Herhangi bir deneysel çalışma yapmadan genlerin fonksiyonu hakkında büyük
miktarda bilgi elde etmek mümkün değildir. Genomik DNA’daki genleri aramak için
bilgisayar programları genellikle benzerlik araştırması ilkelerinin sağlanması ile
bilinen genlerle eşleşen dizileri bulmak için algoritmleri birleştirir. Bu algoritmler,
sekans bilgisi için üniversal olarak zengin bir kaynak olan sekans veri tabanlarına
dayanmaktadır. Veritabanlarının genomikteki önemi küçümsenmeyecek derecededir.
Veritabanları her çeşit biyolojik bilgi için zengin içerikli elektronik kaynaklardır ve
birçoğuna internet üzerinden serbestçe ulaşılabilmektedir. Primer veri tabanları
orijinal nükleik asit ve protein dizisini içerirken, sekonder veritabanları ise yüksek
oranda korunmuş protein ailelerinin profillerinin sıralanmasında primer
veritabanlarındaki bilgiyi kullanır (tablo 2.3). BLAST, FASTA ve onların türevleri gibi
arama algoritmleri yeni sekansların daha önce depolanmış tüm sekanslarla
karşılaştırılmasına izin verir. Burada önemli olan, sekans veritabanları, sadece
sekansı içermez aynı zamanda gen fonksiyonu ile ilişkili olabilecek bilgileri de
içermektedir. Eğer insan geninin fonksiyonu bilinmiyorsa, genellikle başka bir türdeki
ilişkili gen çalışılır fonksiyonu hakkında bazı bilgiler elde edilir. Bundan dolayı, yeni
genlerin fonksiyonunun belirlenmesinde en hızlı yol, veritabanlarını aramak ve
tamamen yorumlanmış ilişkili dizileri bulma girişimidir.
Tablo 2.3 Primer ve skonder sekans ve yapısal veri tabanları
25
Sekans kıyaslaması aracılığı ile fonksiyonel yorum, tüm genom üzerinde
uygulanabilir, fakat tüm genlerin fonksiyonu etkin bir şekilde saptanamaz. Örneğin,
1996 yılında maya genomu sekanslandığında, genlerin %30’u biliniyordu ve
fonksiyonu da mevcut deneylerle belirlenmişti. Tahmin edilen genlerin %30’undan
daha fazlasının, veritabanında bulunan diğer genlerle homolojisine dayanarak kısmi
olarak fonksiyonları belirlenmişti. Kalan %30’un fonksiyonu bilinmezken (orphan
genler olarak biliniyor), %10 ‘u ise kesin olmayan tahminlere aitti. İnsan genomunun
fonksiyonel olarak yorumlanması, genlerin tam olarak tahmin edilememesinden
dolayı oldukça karmaşıktı, fakat genlerin yaklaşık %60’ının fonksiyonu önceden var
olan deneysel kanıtlar veya karakterize edilmiş diğer türlerdeki genler veya insan
genleri homolojisine dayanarak belirlenebilmişti. Genlerimizin kalan %40’nın
fonksiyonu ise bilinmemektedir.
Orphan genlerle ile ilgili problem kısmı, ilişkili dizilerin tespitindeki zorluğu ifade
etmektedir. Standart arama algoritmleri, %30’u aynı olan protein dizilerini güvenilir
şekilde belirlemektedir. Fakat bu seviyenin altında birçok ilişki bulunmamıştır. Büyük
protein ailelerine uyan profil ve paternlere dayanan çok daha içerikli arama teknikleri,
bazı durumlarda yardımcı olabilmektedir fakat bu methodlar her zaman güvenilir
değildir. İlgili yeni yaklaşımlar, fonksiyonel yorumu için dizilerden çok protein
yapısının kullanmak içindir. Protein yapıları, sekanslara göre çok daha fazla
korunmuştur. Örneğin, sekansları sadece %17 benzerlik göstermesine rağmen
hemoglobin ve myoglobin yapısı aslında aynıdır. DALI, VAST, COMPARER gibi
yapısal karşılaştırmalı algoritimler kullanılarak, %10’dan daha az benzerlik gösteren
protein yapılarını karşılaştırmak mümkündür. Dizilere gelindiğinde, nüklear manyetik
rezonans spektroskopi ve/veya X-ray kristallografi aracığı ile protein yapılarının
çözüldüğü primer veritabanları vardır. Protein yapılarının sistematik ve yüksek verisel
tarzda çözülmesi için çeşitli uluslar arası işbirlikçi girişimler devam etmektedir, onun
için her protein ailesi için var olan örnekler veritabanlarında saklanmaktadır.
Gelecekte, protein olarak ifade edilmeleri, protein yapılarının çözülmesi, bunları
veritabanındaki yapılarla karşılaştırılması yoluyla orphan genlerin fonksiyonlarını
tanımlamak belkide mümkün olabilir. Bu durumda protein yapılarının tanımlanması
için standart bir dil belirlenmelidir .
26
Fonksiyonel yorumlama için sekansa dayalı diğer bir yöntem karşılaştırmalı
genomikdir. Karşılaştırılmalı genomiğin prensibi, türler arasındaki benzerlikleri
tek gen seviyesinin ötesinde yaymak ve tüm genomları içermektir. Yakın olarak
ilişkili türlerde (örn; fare vb insan) evrimsel olarak korunmuş fonksiyonu ile tek
sekanslar her iki genomda bulunabilirken diğerleri belirgin olarak ayrıldığı için,
karşılaştırmalı genomik genlerin ve düzenleyici elementlerinin tanımlanmasına
yardım edebilir. Birbiriyle uzak ilişkili türler arasında bile moleküler yollar ve iletişim
seviyesinde, korunmanın derecesi şaşırtıcıdır. Dikkat çekici bir örnek, nematod
Caenorhabditis elegans ve insanlar arasındaki insülin sinyal metabolik yolunun
korunmasıdır. Gerçekten, bilinen insan hastalık genlerinin %60’ına yakın bir kısmının
eşi, bu solucanda ve/veya diğer omurgasız model organizmalarda, meyve sineği
Drosophila melanogaster, bulunmaktadır. Bu da, insan genlerine benzeyenleri
ayırmaya yardımcı olabilen daha ileri metabolik yol bileşenlerinin aydınlatılmasında,
çalışmaların sorumlu organizmalara taşınmasına izin verir. Hatta hastalık
genlerimizin yaklaşık %30’nun akrabaları, hücre bölünmesi ve DNA onarımı gibi
yüksek oranda korunmuş fonksiyonları temsil edici mayada bulunmaktadır.
Fonksiyonel yorum için araçların sağlanması kadar, bu organizmalar hastalık
modelleri olarak kullanılabilirler. Örneğin, C.elegans’daki insülin sinyali metabolik yolu
tip 2 diabet için mükemmel bir model sağlamak için ayrılabilir.
Sekans ve /veya yapısal karşılaştırma, fonksiyonel yorumlama için yararlı ilk yardım
kaynağı olabilmesine rağmen, bilginin neden dikkatle işlenmesi ile ilgili çeşitli
nedenler vardır.
• Düşük karışıklıktaki bölgeler, çok çeşitli fonksiyonları ile birçok proteinde
bulunurlar. Transmembran domeynleri bu kategoriye girmektedir.
• Sekans benzerliği, fonksiyonel benzerliği garanti etmez. Bir miktar dizi çok
fonksiyonludur ve tamamen birbiriyle ilişkisi olmayan fonksiyonlarla
proteinlerde ortaya çıkmaktadır. Örneğin, α/β hidrolaz katlanmış formu
,fonksiyonu farklı birçok enzimde katalitik bölgeyi oluşturur aynı zamanda
hücre adhesyon moleküllerinde bulunur.
• Bazı proteinler evrim süresince sonradan kazanılmış ek fonksiyonlar içerirler.
İyi bir örnek, olağan metabolik enzimlerin kristalinler olarak güçlendirilmesidir.
Proteinler gözdeki lensin ışığı kırmasına izin verir.
27
• Fonksiyonun tanımlanmasında tüm araştırmacılar tarafından kullanılan dil aynı
değildir, iki anlamlılık yükselebilir. Son zamanlarda, fonksiyonel sınıflandırma
için terminolojiyi standardize etmek için düzenlenmiş girişimler bulunmaktadır.
• Veritabanları hata içermektedir. Bazıları yazım hatası iken bazıları deneysel
hata olarak artmaktadır. Sadece veritabanı bilgilerine göre yeni genlerin
yorumlanması ,diğer insanlarca yapılan hataları destekleyerek, risk oluşturur.
Son olarak, sekans benzerliğine dayalı birçok fonksiyonel tahminler, biyokimyasal
fonksiyon tahminleridir ve her zaman yardımcı olmayabilir. Örneğin, protein kinazı
kodlayan yeni bir genin bulunması mümkündür ama, bu proteinin yaygın rolü
hakkında herhangi bir bilgi sağlamaz. Proteinlerin hastalıklardaki rollerini de
kapsayan, hücresel veya biyolojik seviyedeki fonksiyonları hakkında daha fazla bilgi
gerekmektedir ve bu da sadece diğer tip çalışmalarla sağlanabilir.