27
1 GENOMİK’E GENEL BAKIŞ Giriş Rekombinanat DNA devriminin sonucundan köken alıp, günümüze kadar gelen moleküler tıp ve genomiğin beklenen bilimsel ve tıbbi yararları oldukça önemlidir. Şu anda içinde bulunduğumuz durum oldukça umut vericidir. Şu an elimizde, insan genomunun tüm dizisi ve tek bir gen için potansiyel yaklaşımlar mevcuttur. Bu da, sağlık ve hastalık alanında insan biyolojisi çalışmak için eşsiz bir fırsat sunmaktadır. Benzer kaynaklar, önemli bazı patojenleri de içeren çok sayıda diğer organizmalar içinde mevcuttur (tablo 2.1). Tıbbi araştırmaların odağı, şimdi genlerin sistematik fonksiyonel evrimine ve mekanizmaların aydınlatılmasına doğru dönmüştür. İnsanı daha sağlıklı kılmak için, biyolojik aktivitenin koordinasyonunda genlerin nasıl fonksiyon gösterip, etkileşime girdiğinin tamamen anlaşılması, yeni terapilerin gelişmesi için çok büyük bir fırsat sağlamaktadır. Tablo 2.1 Sekanslanan bazı patojen( bakteri ve protozoalar) genomları

GENOMİK’E GENEL BAKIŞ ş ğ Ş ğ Ş ş ğ ş ğ ş ğ ş ğ ş ğyunus.hacettepe.edu.tr/~mergen/derleme/d_genomiks.pdf · Bazı SNP’ler restriksiyon enzim kesim bölgeleri

Embed Size (px)

Citation preview

1

GENOMİK’E GENEL BAKIŞ Giriş

Rekombinanat DNA devriminin sonucundan köken alıp, günümüze kadar gelen

moleküler tıp ve genomiğin beklenen bilimsel ve tıbbi yararları oldukça önemlidir.

Şu anda içinde bulunduğumuz durum oldukça umut vericidir. Şu an elimizde, insan

genomunun tüm dizisi ve tek bir gen için potansiyel yaklaşımlar mevcuttur. Bu da,

sağlık ve hastalık alanında insan biyolojisi çalışmak için eşsiz bir fırsat sunmaktadır.

Benzer kaynaklar, önemli bazı patojenleri de içeren çok sayıda diğer organizmalar

içinde mevcuttur (tablo 2.1). Tıbbi araştırmaların odağı, şimdi genlerin sistematik

fonksiyonel evrimine ve mekanizmaların aydınlatılmasına doğru dönmüştür. İnsanı

daha sağlıklı kılmak için, biyolojik aktivitenin koordinasyonunda genlerin nasıl

fonksiyon gösterip, etkileşime girdiğinin tamamen anlaşılması, yeni terapilerin

gelişmesi için çok büyük bir fırsat sağlamaktadır.

Tablo 2.1 Sekanslanan bazı patojen( bakteri ve protozoalar) genomları

2

Gelişmenin Yeniden Gözden Geçirilmesi: İnsan Genom Projesi

Genomik (kutu 2.1), 1990’da İnsan Genom Projesi (HGP) resmen başlatıldığı

zaman, önemli ve bağımsız bir araştırma alanı haline geldi. Projenin en belirgin

amacı 15 yıl içerisinde 3000-Mbç’lik tüm insan nüklear genomunu sekanslamaktı.

Asıl sekanslama başlamadan önce pekçok başlangıç işin yapılması gerektiği kabul

edildi ve yeni teknolojilerin (kutu 2.2) geçerli kılınması için pilot projeler olarak, insan

genomuna ek olarak beş model organizmanın genomunun sekanslanmasının

gerektiği kabul edildi. İlk iş, DNA klonlarının fiziksel haritasının birleştirilmesi için

taslak görevi görecek olan insan genomunun yüksek rezolüsyonlu genetik haritasını

kurmaktı. Önce, genetik ve fiziksel haritalama evreleri tamamlandı daha sonra

sekanslama başladı.

Kutu 2.1 Genomik Nedir?

Genom terimi, 1920 yılında Alman botanikçi Hans Winkler tarafından tüm haploid

kromozom seti içindeki gen topluluğu olarak tanımlandı. Günümüzde bu terim,

sadece genleri değil haploid kromozom setindeki tüm DNA’yı ida çine alacak şekilde

genişletildi. Çünkü yüksek yapılı ökaryot genleri azınlıktadır. Örneğin; insan

genomunun sadece %2-3’ü genler tarafından temsil edilmektedir. Genom kavramı

çok eski olmasına rağmen, genomik terimi 1986’ya kadar kullanılmamıştır. Fare

genetikçisi Thomas Roderick bu terimi, genomun haritalanması, sekanslanması ve

karakterizasyonunu tanımlamak için önermiştir. Son zamanlarda genomiğin özü,

geniş ölçekli, baştan başa yüksek bir biyolojik analiz ile ilişkilendirilmiştir.

Fonksiyonel genomik; gen fonksiyon analizleri için çeşitli sistematik yaklaşımları

içine almaktadır. Transkriptomik, mRNA ekspresyonun geniş ölçekli analizidir.

Proteomik, proteinlerin geniş kapsamlı analizidir ve ekspresyon profilleri, etkileşimler

ve protein yapısının çalışılması şeklinde kısımlara ayrılmaktadır. Proteomik yeni

moleküler tıp için çok önemli bir unsurdur. Çünkü birçok ilaç hedefi, proteinlerdir.

3

Kutu 2.2 İnsan Genom Projesinin başlangıç hedefi olan model organizma genomları

Esherichia coli (bacteri) Drosophila melanogaster (meyve sineği)

Saccharomyces cerevisiae (yeast) Mus musculis (fare)

Caenorhabditis elegans (nematod)

İnsan genom projesinin belirtilen zaman çerçevesinde, hedeflerinin tamamlanması

için, haritalamada, klonlamada, sekanslamada ve bioinformatikde teknolojik

ilerlemelere gereksinim duyulmuştur. Başlangıç bütçenin büyük bir kısmı projeden

dolayı doğabilecek etik, yasal ve sosyal sorunlar için ayrılmıştır. Örneğin, projeden

elde edilen herhangi bir bilginin bireylere veya toplumlara karşı kullanılmasını

önlemek gibi.. (kutu 2.3)

4

Kutu 2.3 İnsan Genom Projesinin etik, yasal ve sosyal meseleleri (The ethical, legal, social issues (ELSI) of the Human Genome Project )

İnsan Genom Projesi resmen başlatılmadan

önce, projenin gerçekleşmesi ve elde edilen

bilginin yeni ve kompleks etik sorunlara

neden olabileceği kabul edilmişti. Endişe

duyulan belirli konular; örneklerin toplanması,

vericilerin gizliliği ve projeden elde edilen

genetik bilginin sonraki kullanımı ve

geçerliliğine ilişkin konulardı. Bundan dolayı

HGP’ye sponsor olan iki birleşmiş devletler

organizasyonu - The US Department of

Energy (DOE) ve National Institutes of Health

(NIH)- senelik HGP bütçelerinin (%3-%5)

önemli bir kısmını, projenin etik, yasal ve

sosyal sorunlarını (ELSI) çalışma amacında

olan program serilerine ayırdılar. ELSI

programlarının başlıca amacı, geniş oranda

ilgili gruplara danışarak eğitimi yükseltmek ve

izlenecek yoldaki kararlara rehberlik etmektir.

HGP ELSI programlarının en önemli

fonksiyonu, geçmişe yönelik olmaktan çok

projeyi tamamlayıcı özellikte olmasıdır.

Bundan dolayı problemler artmadan önce,

yeni teknoloji gelişmelerinin anlamlarını

önceden görerek ve önemli sorunlarda

açıklama yaparak yardım etmektedir.

ELSI programlarının başlıca amaçları

şöyledir:

•İnsan genom sekanslaması ve

haritalanmasının toplum ve bireyler için

etkilerini göstermek ve tahmin etmek

•İnsan genom sekanslaması ve

haritalamasının etik, yasal ve sosyal

sonuçlarını gözden geçirmek

• Sorunların kamuoyu tartışmalarını teşvik

etmek ve

• Elde edilen bilgilerin, bireylerin ve

toplumların yararına kullanılacağını garanti

edebilen politika seçeneklerini geliştirmek.

ELSI’nın amaçları birkaç yılda bir

güncellenmektedir son zamandaki amaçları

şunlardır:

• İnsan genetik varyasyon çalışmaları ve

insan DNA sekansının tamamlanması gibi

konulardaki sorunları gözden geçirmek

•Genetik teknolojilerin, sağlık tedbiri ve halk

sağlığı aktivitelerindeki bilgilerin integrasyonu

ile doğacak sorunları incelemek

•Klinik olmayan durumlarda gen-çevre

etkileşimleri ve genomik hakkında bilginin

birleşmesiyle artacak sorunların gözden

geçirilmesi

•Yeni genetik bilginin felsefik, tanrı bilimi ve

etiksel perspektif ile interaksiyonunun nasıl

olabileceğini incelemek

•Genetik servislerin kullanılması ve

politikaların gelişmesinin, ırksal, etnik,

sosyoekonomik faktörlerin, genetik bilginin

kullanımını, anlaşılmasını ve açıklanmasını

nasıl etkileyeceğini incelemek.

5

1980’li yılların ilk ortalarında HGP ilk kez tasarlandığında, günde sadece DNA’daki

yaklaşık 1000 nükleotidi sekanslamak mümkündü. Bu hızda, bilimadamları hiçbirşey

yapamıyordu fakat sekanslama tüm genomun tamamlanması için gerekliydi. Bilgilerin

verimini istenilen seviyede arttırmak için tamamen yeni sekanslama metodları

tasarlandı. HGP’si süresince birçok yeni method ortaya çıkmasına rağmen, yüksek

verim hedefine otomasyon ve var olan teknolojinin arttırılması ile ulaşıldı.

Günümüzde, bir kerede 96 örneği işleyebilen, ultra hızlı kapiller sekans aletleri

kullanılarak bir makine ile günde yarım milyon nükleotid sekansı şeklinde üretimi

arttırmak mümkün hale gelmiştir. Daha fazla sayıda makinenin kullanılması verimi

çok daha fazla arttırabilecektir.

GENETİK HARİTALAMADAKİ ATILIMLAR

Genetik haritalar, rekombinasyon frekansına dayanmaktadır ve model

organizmalarda farklı mutant suşlar arasında büyük ölçekli melezlemeler

gerçekleştirilerek kurulmuşlardır. Genetik haritaların prensibi kromozom üzerindeki

(daha muhtemel olarak mayoz sırasında krosover olduğu bölgeden) iki lokusu daha

ileri ayırmaktır.

Çaprazlanan döllerdeki mutant fenotiplerin yeni kombinasyonlarına bakarak, genetik

olarak uygun Drosophila ve maya gibi organizmalarda krosover sonucu oluşan

rekombinasyon olayları ölçülebilmektedir. Bu yaklaşım insan populasyonu için

kullanılamaz çünkü farklı kalıtsal hastalıklara sahip insanlar arasında büyük oranda

eşleşmenin olması gerekmektedir. Onun yerine, insan genetik haritaları, aile

pedigrilerinde bulunan DNA sekans polimorfizmi analizine dayanmaktadır (kutu 2.4).

HGP’den önce, düşük rezolüsyonlu genetik haritalar, RFLPs (restriction fragment

lenght polymorphisms) kullanılarak yapılıyordu. Bunlar doğal olarak restriksiyon

enzimleri ile kesilen ya da kesim noktası ortadan kalkan bölgeleri oluşturan

varyasyonlardan meydana gelmektedir ve bundan dolayı Southern blot’da farklı

büyüklükte bantlar oluşmaktadır (şekil 2.1). Fakat fiziksel haritalar için iskelet

oluşturmakta çok az ve çok geniş aralıklar oluşturması ile RFLP’nin kullanımı

problem yaratmıştır. İlk olarak RFLP haritaları 400 üzerinde markır ve 10cM’lik (yani

her 10Mb DNA için bir markıra denk gelmektedir ) rezolüsyona sahipti. Genomda

geniş olarak yayılmış ve fazlaca bulunan mikrosatellit olarak bilinen yeni polimorfik

6

markırların keşfedilmesi oldukça önemli bir buluş olmuştur (Şekil 2.2). 1992’de

fiziksel haritalama için uygun bir kalıp olan 1cM (her 1Mb DNA için bir markıra

denktir) rezolüsyonlu, mikrosatellitlere dayalı genetik harita yapılmıştır. 1996’da daha

fazla mikrosatellit markırı içine alan rezolüsyonu 0.5cM olan daha ileri bir harita

yapılmıştır. 2002 yılına gelindiğinde İzlanda’daki deCODE adı verilen bir konsorsiyum

tarafından en son harita, 0.2 cM rezolüsyonlu ve 5000’nin üzerinde markırı içine

alacak şekilde oluşturulmuştur. SNP ve haplotip projeleride aynı zamanda yüksek-

rezolüsyonlu genetik haritaların örnekleridir (kutu 2.4).

Kutu 2.4 İnsan Genomundaki Varyasyon

HGP için kullanılan DNA, adı bilinmeyen 12 gönüllüden alınmıştır. Akraba olmayan

herhangi iki insanın genom sekansı sadece %99.9 oranında benzerdir, tam bir

sekans yoktur. DNA’nın 3 milyon baz çiftindeki %0.1’lik fark çok ilginç bir şekilde bizi

birbirimizden ayırmaktadır. Kalıtsal hastalıklara yol açan gen mutasyonları bütün

olarak populasyonda oldukça nadirdir ve bundan dolayı bu varyasyonların sadece

çok az bir kısmından sorumlu olmaktadır. Çok büyük kısmı, çeşitli ve farklı

varyantların (allellerin) oldukça yaygın olduğu sekans polimorfizmlerinden

oluşmaktadır. Bu varyasyonlar, genetik haritanın oluşturulmasında markır olarak

kullanılmaktadır. Çünkü hibridizasyon veya PCR yöntemleri allelleri tanımlamak ve

tespit etmek için kullanılmaktadır. Bundan dolayı aile ağacında rekombinasyonların

olup olmadığı kanıtlanabilmektedir.

Varyasyonların Tipi Polimorfik sekans varyasyonunun yaklaşık %95’i tek nükleotid polimorfizmi (SNP)

olarak tanımlanmaktadır. Yani tek nükleotid pozisyonları, bazı insanlarda tek bir baz

için diğer insanlarda ona alternatif bazı ifade etmektedir. Genlerdeki ve etrafında

bulunan polimorfizmler, belirgin fenotipik etkiler gösterebilmektedir (örneğin;

polimorfizm saç rengini etkileyebilmektedir). Bunun yanında birçok insanda, SNP’lerin

etkisi çok daha karmaşık olabilmektedir. Örneğin, hastalıklara yatkınlığı veya belirli

ilaçlara cevap şeklini etkileyebilmektedir. SNP’lerin büyük çoğunluğu genlerin

dışarısında bulunmaktadır ve belkide etkisi yoktur. Ama, hala genetik markır olarak

oldukça yararlıdırlar. Bazı SNP’ler restriksiyon enzim kesim bölgeleri oluşturarak ya

da ortadan kaldırarak, Southern blotda görülen bant paternlerini değiştirirler. Bu

7

restriksiyon fragment uzunluk polimorfizmleri (RFLP’ler) insan genomu için ilk geniş

kapsamlı genetik haritanın oluşturulmasında kullanılmıştır.

Sekans polimorfizminin kalan %5’i mikrosatellitler olarak bilinen basit sekans tekrar

polimorfizmleri (simple sequence repeat polymorphism (SSRPs)) olarak

bulunmaktadır. Bunlar çeşitli sayıda kısa tekrar dizileridir. Mikrosatellitlerin en yaygın

formu CA (n) tekrarıdır. n= tekrar sayısını göstermektedir. Genelde 5-50 arasındadır.

SNP’lerden farklı olarak, mikrosatellitler çoklu allelleri içerirken (yani 12, 22,31 tekrarlı

yaygın varyantlar), SNP’ler genellikle iki alternatif formdan biri olarak görülür.

Mikrosatellitler nadir olarak genlerde bulunmaktadır ve bulundukları zaman patojenik

etkilere neden olurlar (Örneğin, Huntington hastalığı). Fakat geniş oranda

yayılmışlardır ve yüksek rezolüsyonlu haritaların oluşturulmasında kullanılmaktadır.

HGP’nin fiziksel haritalama evresi, mikrosatellit markırlarına dayalı genetik haritanın

taslağı olarak kullanılmaktadır.

Varyasyonların Çalışılması İnsan varyasyonları uzun yıllardır adli analizlerde kullanılıyordu fakat tüm genomu

kaplayan varyasyonlara ilgi, HGP ile büyümeye başladı. İnsan sekans çeşitliliğinin

evrensel etkisini çalışmak için, Human Genome Diversity Project (HGDP) 1991

yılında HGP’nin yan projesi olarak başlatıldı. Bunun yanında küçük bir kaynak da aldı

çünkü projenin başlıca amacı insan orijinleri ve populasyon tarihi çalışmalarında farklı

etnik gruplar için uygun markırı bulmaktı. SNP- haritaları projesi için hem genel hem

özel çok fazla destek vardı. Çünkü bu tıbbi araştırmalar için somut yarar

sağlayacaktı. SNP’ler ve hastalık yatkınlığı arasındaki ilişkinin tanımlanabilmesi,

bireylerin genoyipine dayalı olarak ilaçların bireylere uygun hale getirildiği, yeni

medikal alan farmakogenetiğin temelini oluşturan ilaç yanıtı ve SNP’ler arasındaki

ilşkiyi ve hastalık genlerinin keşfedilme hızını büyük oranda artıracaktır.

Uluslararası SNP konsorsiyum Ltd. 1999’da sistematik SNP haritalama projesine

başladı ve 2001 yılı itibari ile neredeyse 1.000.000 SNP’ yi içeren harita oluşturuldu.

Son zamanlarda, haplotip kalıpları ile birlikte kalıtılan SNP gruplarıda gösterildi.

Tahmin edilen 10 milyon SNP, 200 bin kadar haplotip tarafından gösterildi ki bu da

hastalık ilişkilerini saptayan mekanizmayı daha kolaylaştırdı. Genom aracılığı ile

haplotipleri haritalama amacı olan International HapMap Projesi 2001 ocak ayında

başlatıldı.

8

Şekil 2.1 RFLP, restriksiyon bölgesini ortadan kaldıran veya oluşturan dizi

varyantlarıdır bundan dolayı prob tarafından tespit edilen restriksiyon fragment

uzunluğu değişmektedir. Üstteki panel iki alternatif alleli göstermektedir. Burada üç

restriksiyon bölgesinden ortadaki bölgenin olup olmamasına bağlı olarak spesifik

probun uzunluğunun değişmesiyle restriksiyon fragmentleri tespit edilir. Alleller a ve

b, Southern blotda farklı büyüklükte hibrid bant oluşturur. Bu da allellerin aile ağacı

aracılığı ile ortaya çıkmasına izin verir. Örneğin çocuk II.2 a allelinden iki kopya

(anne ve babadan bir tane) çocuk II.4 bir kopya a allelinden, bir kopya b allelinden

taşımaktadır.

Fiziksel Haritalamadaki Buluşlar

Genetik haritalardan farklı olarak, fiziksel haritalar asıl DNA birimlerine

dayanmaktadır ve bundan dolayı sekanslama için uygun temel oluşturmaktadır.

HGP’nin fiziksel haritalama evresi genomik DNA kütüphanelerinin oluşturulması ve

kontigleri oluşturmak için çakışan klonların bir araya getirilip tanımlanmasını

9

içermekteydi. (Kontig, genomdaki bitişik segmentleri temsil eden bütün klon serileri )

HGP başladığı zaman, klonlama için uygun vektörler, maksimum insert büyüklüğü 40

kbç olan kozmid vektörlerdi. Fakat, fiziksel haritaları bir araya getirmek için yüzlerce

binlerce kozmid klonun taranması gerekliydi. Bu nedenle daha büyük insert alabilen

klonlama vektörlerine ihtiyaç duyuldu. Genomik çatı üzerindeki klon kontiglerini bir

araya toplamak ve çakışanları bulmak için aynı zamanda yeni yaklaşımlara

gereksinim vardı.

Şekil 2.2 Mikrosatellitler, 1-2 nükleotid uzunluğundaki, kısa, birbiri arkasına dizilmiş

tekrar dizilerinin kopya sayısına bağlı olarak restriksiyon fragmentlerinin veya PCR

ürünlerinin uzunluğunda fark oluşturan sekans varyantlarıdır. Üstteki panel, dört tane

alternatif allleli göstermektedir. Burada tandem tekrarların değişken sayısına bağlı

olarak spesifik probla saptanan restriksiyon fragment uzunluğu fark göstermektedir.

10

Dört allelin hepsi, Southern blotda, farklı büyüklükte bant ya da farklı büyüklükte PCR

ürünü gösterir. RFLP’den farklı olarak, mikrosatellitler için çoklu allelizm yaygındır.

Böylece tam bir kalıtım paterni takip edilebilir. Örneğin, anne b/d; baba a/c allelini

taşımaktadır. İlk çocuk II.1 b allelini annesinden, a allelini ise babasından almıştır.

Klonlama vektör teknolojisi olmasına rağmen, gerekli bir buluş, çok daha büyük

insertleri alabilen yapay kromozom vektörlerinin gelişmesi ile ortaya çıkmıştı (Şekil

2.3). Bu tür ilk vektör yeast artificial kromozomları (YACs) idi. Bu vektörler 1Mbç’nin

üzerinde insert taşıyabilmekte ve tüm genom için gerekli olan 10.000’nin üzerindeki

klon sayısını azaltmaktadır. YAC’ larla ilgili bir problem, kimerik insertleride içine alma

eğilimiydi, (yani, insertler genomdaki iki ya da daha fazla bitişik olmayan bölgeden

DNA segmentlerini içermekteydi). Bundan dolayı, sekanslama için kullanılacak son

fiziksel haritayı oluşturmak için yüksek doğrulukta vektörlere gereksinim duyuldu.

BACs (Bacterial Artificial Chromosomes ) ve PACs (P1 Artificial Chromosomes)

vektörleri, stabil yapıları ve nispeten büyük insert almaları (200-300 kbç) nedeniyle

seçildi.

Fiziksel klonları kontigler şeklinde bir araya getirmek için, çeşitli stratejiler

tasarlanmıştır. Bunların hepsi, bitişik klonlar arasındaki overlap (çakışan) eden

bölgelerin tespitini içermekteydi. Bunlar:

• Kromozom walking: Bu teknikte yaygın olarak pozisyonel klonlama ve birbiri

ile overlap eden kısımları tanımlamak için hibridizasyon probları olarak

klonların kullanılması basamakları bulunmaktadır. Alternatif olarak, her

klonun son sekansı primer çiftlerinin dizaynında kullanılmaktadır ve overlap

eden klonlar PCR ile tespit edilmektedir.

• Restriksiyon enzim fingerprinting: Bu teknik klonların restriksiyon enzimleri

ile kesimini kapsamaktadır. Overlap eden iki klon, belirli sayıdaki benzer

restriksiyon fragmentlerini paylaşır. Bu paternler komplekstir ve bilgisayarlar

tarafından yorumlanmaktadır (şekil 2.4).

11

Şekil 2.4 Restriksiyon –fragment fingerprintig temel prensipleri. a) İşaretli

restriksiyon fragmentlerinin oluşturulması b) Dört farklı klondan oluşturulmuş

paternler c) b’de gösterilen bilgilerden oluşturulan kontig haritası

• Repetetiv DNA fingerprinting: Daha önce belirtildiği gibi, restriksiyon

fragmentlerinin Southern blotları Alu gibi genoma yayılmış tekrar dizileri için

problanabilir. Genoma yayılmış (her 4kbç’de bir) Alu elementlerinin bir

milyonun üzerinde kopyası bulunmaktadır. Böylece tipik bir 100- Kbç’ lik BAC

klonu 20-30 tekrar içerecektir. Çakışan klonlar, belirli oranda hibrid bantlarını

paylaşacaktır. Repetetiv DNA’ya dayanan PCR bazlı fingerprinting testlerde

kullanılabilmektedir.

• STS Haritalaması: STS’ler (Sequence tagged site) genomda 100-200 bç

uzunluğunda tek olan dizilerdir ve PCR ile kolayca saptanabilmektedir. Eğer iki

12

klon aynı STS’i paylaşırsa overlap eden bölge tanımlanarak kontig olarak

birleştirilebilmektedir. HGP’de kontiglerin oluşturulmasında STS haritalama oldukça değerli bir stratejidir.

1995’de fiziksel referans haritanın 200 kbç uzaklıkta 15.000 STS markır içerdiği

yayınlanmıştır. Bundan dolayı, belirli STS markırlarını içeren klonlar, sadece diğer

klonlarla olan ilişkilerini değil, kromozomal lokalizasyonları tam olarak gösteren

referans haritalar için yerleştirilebilir. Önemli olarak, STS’lerin bazıları içerdikleri

polimorfik mikrosatellit sekanslar nedeniyle genetik markır olarak kullanılabilmekte ve

genetik harita ile bütün oluşturmaktadır. EST’ler (Expressed sequence taqs), cDNA

klonlarından türemiş ve bundan dolayı genlerin pozisyonunu tanımlamaktadır.

Şekil 2.3 İnsan genom projesinde çok değerli olan iki yapay kromozom vektörü. a)

Yeast artificial kromozom; maksimum insert büyüklüğü 2Mbç kadar, TEL, telomer;

TRP, triptofan sentezi seçici markırı; ARS, maya için replikasyon orjini; CEN,

sentromer; Leu, lösin sentezi seçici markırı. b) Bakteriyel artificial kromozom,

maksimum insert büyüklüğü 200 Kbç kadar. CMR , antibiyotik dirençlilik markırı; oriS/

repE, replikasyon için gerekli dizileri, parA/parB, regülasyonun kopya sayısı için

gerekli diziler; oklar; T3 veT7 RNA polimeraz için gerekli promotorları göstermektedir.

Bu polimerazlar insertin son sekanslarına uygun işaretli probların hazırlanmasında

kullanılır.

13

SEKANS STRATEJİLERİ Tüm hücresel genom projeleri, şekil 2.5’ de açıklanan oldukça önemli zincir

sonlandırma sekansı teknolojisine dayanmaktadır. Çok gelişmiş aletler olsa da,

reaksiyon başına iyi bir sekans için 600-700 nükleotidden fazlasını okumak zordur.

Bundan dolayı BAC veya PAC gibi vektörlerin (200kbç’ne kadar) büyük insertlerinin

sekanslaması yerine, daha kısa parçalara ayrılarak ayrı ayrı sekanslanmasıdır. Bu da

genellikle insertlerin kesilerek 1-2 kb uzunluğundaki fragmentlere ayrılması ile

meydana getirilmektedir. Tüm sekans bilgileri bilgisayara girilir ve overlap eden

parçalar aranır ve orijinal insertdeki tüm sekans bir araya getirilir. Bu yaklaşım

shutgun sekanslama olarak bilinmektedir.

Şekil 2.5 Zincir sonlandırıcıları olarak,

dideoksinükleozid trifosfatlar

ile DNA sekanslaması.

Şekilde yıldız işaretleri, 32P’un olduğunu

göstermektedir. ”d” öneki

dideoksinükleozid varlığına

işaret etmektedir. Şeklin en

üstündeki sekanslanmış

DNA kutu içine alınmıştır.

Primer radyoizotop ile

işaretlenmedikçe, dizisi

CGTAAGGdC olan en küçük

bant otoradyografi ile tespit

edilemez.

14

Kutu 2.5 İnsan Genomunun STS (sequence tagged sites) Referans Haritası

STS’ler genomda tek olarak bulunan, 100-200 bç uzunluğundaki DNA dizileridir ve

PCR ile kolayca tespit edilebilmektedirler. Averaj mesafesi 200kb olan 15.000 STS

markırı içeren insan genomunun fiziksel referans haritası 1995’de yayınlanmıştır. Bu,

BAC ve PAC klon kontiglerini biraraya getirmek için taslak olarak ve bitişik klonlar

arasındaki çakışan bölgeleri tanımlamak anlamında kullanılmıştır. STS markırları ilk

önce nerden geldi ve harita nasıl oluşturuldu?

STS markırları üç kaynaktan çıkmıştır.

• Bazı mikrosatellit markırları genetik haritadan alınmıştır. Mikrosatellitler, tekrar

dizilerinin yanında bazı tek DNA dizilerini içerdikleri sürece STS markırlarına

benzemektedir.

•cDNA kütüphanesindeki klonların rasgele sekanslanması ile üretilen kısmi cDNA

sekansları EST olarak bilinmektedir. Bunlar sadece tek olan genlerden geldiği sürece

STS markırı olarak kullanılmaktadır (gen aileleri üyelerine zıt olarak).

•STS markırlarından geriye kalanlar, rasgele genomik klonlardaki tek sekanslardan

türemişlerdir.

Birbirleriyle ilişkili STS markırlarının haritalanmasında ustalık isteyen bir konu,

referans haritayı oluşturmasında, radyasyon hibrid panel tipleyicileri olarak

gösterilmiştir. Bu klasik bir fiziksek haritalama tekniğidir. Teknikte, insan hücreleri

lethal olarak ışına tabi tutulur ve bireysel kromozom fragmentleri insan hücrelerinin

rodent hücrelere fizyonu ile kurtarılır. Farklı insan kromozomlarını içeren hücre

panelleri, STS markırlarının bulunması için PCR ile test edilebilir. Genetik haritalama

da olduğu gibi, yakın iki markır birbiriyle birliktedir ve çok az ihtimal ayrı bulunur (bu

durumda krosoverdan ziyade kromozom fragmentasyonu ile). Bundan dolayı bir çok

hibrid hücrenin analizi, hangi markırın aynı kromozom fragmenti üzerinde birlikte

bulunduğunu gösterecektir. Bu da markırların düzenli olarak kurulmasına izin

verecektir. Bu, YAC kütüphanelerindeki iki ya da daha fazla bitişik STS markırının

varlığının testi ile doğrulanmıştır.

15

Şekil B 2.5 a) Radyasyon hibrid haritası. Rodent hücreler ve lethal olarak

radyasyona tabi tutulmuş hücreler heterokaryon (iki çekirdekli hücreler) oluşturmak

üzere füzyona tabi tutulur. Hasarlı insan kromozomlarından hibrid çekirdek oluşturan

bu kombinasyonlar elenir. Sonuçta rodent hücreleri bir veya daha fazla insan

kromozom fragmentini içerir. Bu tür hibridlerin paneli tüm insan genomu için

oluşturulabilir. STS markırları için bu tür panellerin sistematik testi, referans fiziksel

haritayı oluşturur.

b) Bu, YAC insertlerinde bu tür markırların varlığını saptamak için testlerle rafine

edilmiş ve doğrulanmıştır.

16

HGP, aşamalı (hiyeyarşik) shotgun stratejisini kullanmıştır. Shotgun sekanslama, her

bir BAC klonlarının insertlerine teker teker uygulanmıştır. Çünkü her BAC neredeyse

bu evrede fiziksel olarak haritalanmıştı , fiziksel referans harita üzerindeki sekans

pozisyonu kolaylıkla saptanmıştı. 1999’da özel olarak finanse edilmiş U.S.

biyoteknoloji şirketi Celera Genomik tarafından insan genom sekanslaması alternatif

tüm genomu kaplayan shotgun stratejisi kullanılarak başlatıldı. Bu yöntemde, shutgun

sekanslaması tüm genomik DNA üzerine uygulandı. Haritalama için faydası yoktu.

Güçlü bilgisayarlar yerine, tüm genom, kısa 600-700 nükleotidlik okumalar ile

biraraya getirilmiştir. Projenin koordinatörü Craig Venter, 1995’de ilk hücresel

genomu tanımlamak için tüm genomu kapsayan shotgun tekniğini kullanmıştı ve özel

ve kamusal projelerin birleşiminin katılımıyla, Drosphila Melanogaster genomunun

ökromatik kısmının sekanslanması için kompleks ökaryotik genom üzerinde

kullanımınıda yasalaştırmıştı (tablo 2.2). Klon-by-klon ve tüm genomu kapsayan

shotgun metodu şekil 2.6’da karşılaştırılmıştır. Sonuçta, klon-by-klon yaklaşımı

başlangıç haritalama ihtiyacından ve klonları toplama safhalarından dolayı daha

yavaştı. Fakat bitmesi daha kolaydı çünkü aşamalı olarak sekansın biraraya

getirilmesi bilgisayar kaynaklarına nazaran daha az çaba gerektiriyordu. Tersine, tüm

genom shotgun methodunda bilgi hızlıca oluşturulmakta, biraraya getirme safhası

özellikle insan genomundaki fazla sayıda veya repetetiv DNA’dan dolayı daha fazla

uğraştırıcıydı. Gerçekten de Celeranın kendi draft sekansını tamamlamasında, HGP

tarafından oluşturulan hem sekans bilgisini hem de haritalama bilgisini kullandığı

gösterildi (her ikiside internet üzerinden serbest). Kamuya ait HGP ve Celera birlikte

2000 yılında draft sekansın tamanlandığını duyurdular ve sekanslar 2003 yılında bitti

(kutu 2.6).

17

Şekil 2.6 Genom sekanslama stratejileri. En üst panel yedi adet fiziksel markır ile 2-3

Mb uzunluğundaki genomik DNA’yı göstermektedir. Markırlar dikey çizgilerle

gösterilmiş STS dizileridir. Solda gösterilmiş klon-by-klon yaklaşımında genomik

DNA, belirleyici overlap bölgeleri tarafından haritalanan ve markırlar kullanarak

referans fiziksel haritalar üzerine yerleştirilmiş BAC vektörlerine klonlanır. Genomik

bölgenin kaplanması için BAC insertleri biraraya getirilir. Her bir BAC (örneğin;

soldaki BAC a ve b markırlarına karşılık gelir) gelişigüzel olarak küçük parçalara

bölünerek shotgun sekanslanır. Sekanslar yeniden bilgisayar aracılığı ile tekrar

biraraya getirilir ve tamamlanan sekanslar harita üzerine yerleştirilir. Tüm genom

shotgun sekanslamasında (sağda gösterilen) genomik DNA shotgun sekanslanır ve

bilgisayar ile biraraya getirilir. Küçük genomlar için referans harita gerekli değildir.

Fakat insan genomu gibi büyük genomlar için gereklidir. Sekansların düzgün olarak

biraraya getirilmesine yardımcı olmak için daha önce var olan haritaların kullanılması

gerekliydi.

18

Şekil 2.7 Tekrarlayan DNA’nın neden olduğu problemler.Yukarıdaki panel, dağılmış

ve tandem tekrarlar taşıyan BAC klonundan bir DNA insertünü göstermektedir. Bu

insert shotgun sekanslandığında tekrarlar yerleştirilirken hata yapılabilir. Örneğin İki

iç tekrar yok sayıldığında, solda iki bitişik klon arasında yanlış bir çakışma meydana

gelebilir. Dağılmış tekrarlar olması durumunda, yanlış çakışmalar aynı zamanda

genleride içerebilen tek DNA dizilerini yok sayabilir.

GENOMUN YORUMLANMASI

Genom projesindeki ilk sekans sonrası iş, genomun yorumlanması yani, sekansdaki

yararlı biyolojik bilginin türetilmesi idi. Aslında bunun anlamı, genlerin ve genomun

fonksiyonel bileşenleri olarak tanımlanan genlerin düzenleyici elementlerini bulmak

ve büyük bir medikal ilişkiye sahip olmaktı.

HGP’nin en başından beri genlerin üzerine, EST’lerin büyük koleksiyonlarını

oluşturmak için, cDNA klonlarının yüksek–verili sekanslamasını içeren güçlü bir

odaklanma vardı. Yukarıda tartışıldığı gibi, EST’ler cDNA kütüphanelerinden,

tercihen sekansın tamamlanması için 8-10 okuma gerektiren, rasgele seçilmiş

klonların sekanslaması ile elde edilen 100-200bç’lik cDNA fragmentleridir. Bundan

dolayı, kısa ve hatalı olmasına rağmen EST’ler kendi doğruluklarında fiziksel

markırlar olduğu gibi gen sekansının oluşturulmasında hızlı ve ucuz bir yol sağlarlar.

Yaklaşık 100.000 ESTs, YACs ve radyasyon hibrid tiplemesi ile genom üstüne

haritalanmıştır. Elbette, sadece bütün bu sekanslar bireysel genleri temsil etmez ve

overlap eden ESTs’ lerin kombinasyonu ile gereksiz olmayan gen setlerinin

tanımlanması için girişimde bulunulmuştur (örneğin; UniGene Project:

http//www.ncbi.nlm.nih.gov/Unigene/). İlk kapsamlı gen haritası 1996’da

oluşturulmuştur ve yaklaşık 20.000-30.000 gen için kanıt sağlamıştır. Bu zamanda,

insan gen kataloğunun sadece küçük bir kısmı göz önünde tutulmuştur.

19

Tablo 2.2 Genom Projesinin Dönüm Noktaları

Yıl 1977

Organizma Bacteriophage φX 174

G.Büyüklüğü 5.38 kb

Açıklamalar İlk genom sekanslandı. Gelecek genom projeleri için baskın olacak yeni sekans methodlarının (zincir sonlandırması gibi) onaylanması.

1995 1996 1997 1998 2000 2001 2002 2003

Haemophilus influenzae Mycoplasma genitalium Saccharomyces cerevisiae Methanococcus jannaschii Esherichia coli Caenorhabditis elegans Drosophila melanogaster Arabidopsis thaliana Homo sapiens Fugu rubripies Mus musculus Plasmodium falciparum, Anopheles gambie

1.8 Mb 0.58 Mb 12 Mb 1.66 Mb 4.7 Mb 97 Mb 165 Mb 125 Mb 3000 Mb 400 Mb 2800 Mb

İlk hücresel genom, ilk bakteriyel genom ve ilk insan patojeni sekanslandı. Tüm genomu kapsayan shotgun methodu kullanılarak 3 aydan kısa bir zamanda başarıldı. Bilinen en küçük hücresel genom İlk ökaryotik genom, önemli model organizma,uluslararası işbirliğinin harekete geçmesine sebep olan örnek İlk achaean genomu Çok önemli bakteriyel model türleri. İki yarışçı grup tatafından bağımsız olarak sekanslandı. İlk çok hücreli organizmanın genomu ve ilk hayvan genomu sekanslandı. Insan biyolojisi için önemli model organizma, Celerayı da içeren özel ve kamusal organizasyonların işbirliği finanse edilerek sekanslandı. İlk bitki genomu İnsan genomu, HGP ve Celera tarafından bağımsız olarak sekanslandı. Minimal repetetiv DNA ile en çok bilinen vertebrat genomu, pufferfish genomu, insan genlerinin tanımlanmasına yardım etti. Fare, kapsamlı bir memeli model olarak insan hastalıklarının çalışmasında kullanıldı.İnsanlara yakın olan organizmalar sekanslandı İlk ökaryotik parazit, malaria parazit (P.falciporum) sekanlandı. Vektörü (sivrisinek A. gambie )’nün yayınlanmsı ile belirgin ir başarı elde edildi.

20

2001’de genom sekansı hazır hale geldiğinde, önemli sayıda yeni genin açığa

çıkacağı umut edilmişti. Fakat sürpriz bir şekilde toplam gen sayısı beklenenden

daha düşük çıktı. Bugünkü tahminler, 30.000’den daha az gene sahip olduğumuzu

önermektedir. Bunlar ise nematod Caenorhabditis elegans ‘dan sadece % 50

fazladır. Tam sayısı güvenli bir şekilde kanıtlanamaz çünkü bazı genlerin

tanımlanması veya doğru şekilde tanımlanarak gösterilmesi zor olabilmektedir. Bir

gen şöyle tahmin edilmektedir.

• Sekansın ifade edildiğine dair kanıt vardır.

• Sekans bilinen bir gene veya ETS’ye (ya insan veya başka türden)

homologtur.

• Sekans genin ayırd edici özelliklerini taşır. Örneğin, promotor, splays bölgesi,

polyadenilasyon bölgesi veya ekzonun varlığını gösteren baz içeriği gibi...

Bilgisayar algoritimleri, hem genlerin “ab initio” (ilk prensiplerden gen benzeri

özellikleri aramak) hem de homoloji temeli üzerine araştırılmasında kullanılmaktadır.

Bu da gen sayısının hem beklenenden az hem de beklenenden çok olmasının

kavranmasını sağlar. Örneğin, eğer sekans bilinen bir genle güçlü bir homoloji

gösteriyorsa fakat gerçekte bir pseudogen ise (fonksiyonel olmayan gen kalıntıları)

veya tahmin artifact (kütüphaneler oluşturulurken genomik sekanslar bazen cDNA

klonlarına katılabilir) cDNA sekansına dayalı ise genler yanlış tahmin edilebilir. Diğer

yandan, gerçek genler çok düşük seviyede ifade olursa veya cDNA

kütüphanelerindeki nadiren bulunacağı için hücre populasyonlarında veya genin

özellikleri bilgisayar tarafından tespit edilmediğinde (bu özellikle non-coding RNA gibi

atipik genlere aittir) gerçek genler kaçırılabilir. İnsan genlerinin tanınması zor

olmaktadır. Çünkü genellikle büyüktürler fakat büyük intronlar tarafından belirli

sayıda küçük ekzonlara bölünmüştür. Bundan dolayı gen tanımlansa bile, ekzonların

kaçırılmış olması veya gen sınırlarına yanlış karar verilmesi olasıdır.

Büyük intronlar arasına gizlenmiş küçük insan genlerinin olduğu örnekler

bulunmaktadır. Belkide insan gen kataloğunun doğru ve tam olarak oluşturulması çok

zaman alacaktır.

21

Sekanslamanın daha ileriki safhasındaki belirgin bir konu, sekans bilgisinin

sunulmasıydı ve ilişkili gen yorumları idi. Bu problem, bilgiyi göstermek için front-end

grafiksel kullanıcı arayüz kullanan ve kullanıcının genomunu farklı rezolüsyonda

gösteren ekranlar arasında geçiş yapmasına izin veren genom browserlarının

geliştirilmesi ile çözülmüştür. Örneğin, EnsEMBL browser (http:// www.ensembl.org)

tüm genomu kromozom serileri halinde görülmesine izin verir. Kromozom üzerine

tıklandığında, kullanıcı, belirli subkromozomal bölgesine odaklanarak rezolüsyonu

yavaş yavaş tek nükleotid seviyesine kadar arttırır (şekil 2.8.). Herbir kromozom

segmenti, genlerle, markırlarla ve daha fazla kullanılabilir bilginin düzenli olarak

yenilenmesi gibi diğer özellikler ile geniş olarak yorumlanmaktadır. Bunlar, genlerin

fonksiyonu ve yapısı hakkında ve diğer organizma genomlarındaki ilişkili genler

hakkında daha fazla bilgi veren yaygın olarak kullanılan linklerdir.

Kutu 2.6 Draft Sekans ve Bitmiş Sekans Şubat 2001’de draft insan genom sekansının tamamlandığı ilan edildiğinde büyük bir

bilimsel başarı olarak müjdelendi. Fakat, sekans, genomun %90’ınından fazla değildi

ve bilgilerin çoğu hamdı. Draft sekansı, bitmiş sekans haline getirmek için yapılacak

neler kalmıştı? Heterokromatin

Eksik dizilerin çoğu heterokromatinleri, her kromozomun primer olarak sentomer

bölgesinde sıkıca paketlenmiş DNA’ yı, temsil eder. Bunlar, klonlanması zor olan,

büyük tandem repat bölgelerini içerirler. Bazı heteromerik DNA’lara belkide ebediyen

ulaşamayacağız ve insan genom sekansı asla tam olarak tamamlanamayacaktır.

Fakat, çok az bir gen heterokromatinde bulunduğu için genomun medikal

uygulamaları üzerine etkisi olmayacaktır.

Boşluklar

Boşluklar, örnek hatalarından dolayı tüm sekanslamalarda ortaya çıkmaktadır.

Örnekleme hataları, kütüphanelerin oluşturulması sırasında (genomun bazı kısımları

kütüphanede gösterilmemiştir) ve sekanslama sırasında (bazı sekanslar seçilmemiş

olmaktadır ) ortaya çıkmaktadır. Boşlukların kapatılma stratejisi, çoklu genomik

kütüphanelerin kullanılmasını ve bilinen kontiglerin uçlarından dışarıya yönelik PCR

primerler ile DNA’nın çoğatılmasını içermektedir. Draft genom sekansında yaklaşık

50,000 boşluk bulunmaktaydı.

22

Tamamlanmamış Sekans

Otomatik sekanslama, bilgiyi farklı bazları gösteren piklerden oluşan sekans izleri

şeklinde göstermektedir (şekil B2.6). Beklenen hatalardan korunmak için, tamamlandı

demeden önce genomun her bir kısmı bağımsız olarak 8-10 kez sekanslanmıştır.

Sekansın niteliği, PHRED gibi her pik için skoru değerlendiren bilgisayar programları

kullanılarak değerlendirililmiştir. Eğer sekansın kalitesi yeterli değilse, bu kabul

edilmez ve tekrar gerçekleştirilmelidir. Hem HGP hem de Celeranın, draft

sekanslarının sadece %25’i bitmiş niteliktedir.

Gelecek: Fonksiyonel Genomik Şu anda 30 bin dolayında insan geni olduğunu biliyoruz. Bir sonraki iş ise , bunların

ne yaptığını bulmaktır. Biliyoruz ki kalıtsal hastalıklar, gen işlevlerinin bozukluğu

nedeniyle oluşmaktadır. İlaçlara, pathojenlere, diğer çevresel etmenlere olan

yanıtımız genler tarafından beklirlenmeketedir. Ayrıca genler belirli çevresel

bileşenleri içeren astım gibi hastalıklara yatkınlığımızı da etkilemektedir.

Geleneksel methodların kullanılmasıyla gen-hastalık veya gen ve yanıt arasındaki

ilişkiler açısından sadece 1500’e yakın gen aydınlatılmıştır ve her defasında da bu

aydınlatma yolu yavaş ve zahmetli olmuştur.

Fonksiyonel genomiğin amacı, yeni ve yüksek kapsamlı teknolojiler kullanarak büyük

oranda genlerin fonksiyonunu saptamaktır. Bu teknolojiler bu nedenle tıbbi keşfin

yeni araçlarını temsil etmektedir. Tüm hedef, sağlıklı vücut aktivitelerinin

koordinasyonu için, genlerimiz arasındaki ilişkiyi veya onların protein ürünlerini tam

olarak öğrenmektir. Bu aktiviteler bozulduğu zaman, moleküler düzeyde ne olduğunu

anlamamız gerekir bu da daha etkili terapilerin gelişmesine ve sağlanması için bize

olanak verecektir. Aynı ilkeler, bizim patojenlerimizin proteinleri ve genleri içinde

geçerlidir. Onlar hakkında daha fazla bilgi elde ederek, vücudumuzda proteinlerle

nasıl etkileşime girdiğini bilmek, bize enfeksiyon hastalıklarının etkilerini

23

sınırlamamıza yardımcı olur. Fonksiyonel genomikteki platformlar çeşitli anahtar

alanlara ayrılmıştır Bunların ilkeleri ve uygulamaları aşağıda tartışılmıştır.

Fig. 2.8 EnsEMBL’dan bir ekran, kromozom 5, p13.2 bandına genel bakış ve bu

banttaki 100kb’lık bölgeye detaylı bakış görülmektedir. Sayfanın aşağısında DNA

sekans ve translasyon dizileri okunabilmektedir.

24

SEKANS KIYASLAMASI VE KARŞILAŞTIRMALI GENOMİK Herhangi bir deneysel çalışma yapmadan genlerin fonksiyonu hakkında büyük

miktarda bilgi elde etmek mümkün değildir. Genomik DNA’daki genleri aramak için

bilgisayar programları genellikle benzerlik araştırması ilkelerinin sağlanması ile

bilinen genlerle eşleşen dizileri bulmak için algoritmleri birleştirir. Bu algoritmler,

sekans bilgisi için üniversal olarak zengin bir kaynak olan sekans veri tabanlarına

dayanmaktadır. Veritabanlarının genomikteki önemi küçümsenmeyecek derecededir.

Veritabanları her çeşit biyolojik bilgi için zengin içerikli elektronik kaynaklardır ve

birçoğuna internet üzerinden serbestçe ulaşılabilmektedir. Primer veri tabanları

orijinal nükleik asit ve protein dizisini içerirken, sekonder veritabanları ise yüksek

oranda korunmuş protein ailelerinin profillerinin sıralanmasında primer

veritabanlarındaki bilgiyi kullanır (tablo 2.3). BLAST, FASTA ve onların türevleri gibi

arama algoritmleri yeni sekansların daha önce depolanmış tüm sekanslarla

karşılaştırılmasına izin verir. Burada önemli olan, sekans veritabanları, sadece

sekansı içermez aynı zamanda gen fonksiyonu ile ilişkili olabilecek bilgileri de

içermektedir. Eğer insan geninin fonksiyonu bilinmiyorsa, genellikle başka bir türdeki

ilişkili gen çalışılır fonksiyonu hakkında bazı bilgiler elde edilir. Bundan dolayı, yeni

genlerin fonksiyonunun belirlenmesinde en hızlı yol, veritabanlarını aramak ve

tamamen yorumlanmış ilişkili dizileri bulma girişimidir.

Tablo 2.3 Primer ve skonder sekans ve yapısal veri tabanları

25

Sekans kıyaslaması aracılığı ile fonksiyonel yorum, tüm genom üzerinde

uygulanabilir, fakat tüm genlerin fonksiyonu etkin bir şekilde saptanamaz. Örneğin,

1996 yılında maya genomu sekanslandığında, genlerin %30’u biliniyordu ve

fonksiyonu da mevcut deneylerle belirlenmişti. Tahmin edilen genlerin %30’undan

daha fazlasının, veritabanında bulunan diğer genlerle homolojisine dayanarak kısmi

olarak fonksiyonları belirlenmişti. Kalan %30’un fonksiyonu bilinmezken (orphan

genler olarak biliniyor), %10 ‘u ise kesin olmayan tahminlere aitti. İnsan genomunun

fonksiyonel olarak yorumlanması, genlerin tam olarak tahmin edilememesinden

dolayı oldukça karmaşıktı, fakat genlerin yaklaşık %60’ının fonksiyonu önceden var

olan deneysel kanıtlar veya karakterize edilmiş diğer türlerdeki genler veya insan

genleri homolojisine dayanarak belirlenebilmişti. Genlerimizin kalan %40’nın

fonksiyonu ise bilinmemektedir.

Orphan genlerle ile ilgili problem kısmı, ilişkili dizilerin tespitindeki zorluğu ifade

etmektedir. Standart arama algoritmleri, %30’u aynı olan protein dizilerini güvenilir

şekilde belirlemektedir. Fakat bu seviyenin altında birçok ilişki bulunmamıştır. Büyük

protein ailelerine uyan profil ve paternlere dayanan çok daha içerikli arama teknikleri,

bazı durumlarda yardımcı olabilmektedir fakat bu methodlar her zaman güvenilir

değildir. İlgili yeni yaklaşımlar, fonksiyonel yorumu için dizilerden çok protein

yapısının kullanmak içindir. Protein yapıları, sekanslara göre çok daha fazla

korunmuştur. Örneğin, sekansları sadece %17 benzerlik göstermesine rağmen

hemoglobin ve myoglobin yapısı aslında aynıdır. DALI, VAST, COMPARER gibi

yapısal karşılaştırmalı algoritimler kullanılarak, %10’dan daha az benzerlik gösteren

protein yapılarını karşılaştırmak mümkündür. Dizilere gelindiğinde, nüklear manyetik

rezonans spektroskopi ve/veya X-ray kristallografi aracığı ile protein yapılarının

çözüldüğü primer veritabanları vardır. Protein yapılarının sistematik ve yüksek verisel

tarzda çözülmesi için çeşitli uluslar arası işbirlikçi girişimler devam etmektedir, onun

için her protein ailesi için var olan örnekler veritabanlarında saklanmaktadır.

Gelecekte, protein olarak ifade edilmeleri, protein yapılarının çözülmesi, bunları

veritabanındaki yapılarla karşılaştırılması yoluyla orphan genlerin fonksiyonlarını

tanımlamak belkide mümkün olabilir. Bu durumda protein yapılarının tanımlanması

için standart bir dil belirlenmelidir .

26

Fonksiyonel yorumlama için sekansa dayalı diğer bir yöntem karşılaştırmalı

genomikdir. Karşılaştırılmalı genomiğin prensibi, türler arasındaki benzerlikleri

tek gen seviyesinin ötesinde yaymak ve tüm genomları içermektir. Yakın olarak

ilişkili türlerde (örn; fare vb insan) evrimsel olarak korunmuş fonksiyonu ile tek

sekanslar her iki genomda bulunabilirken diğerleri belirgin olarak ayrıldığı için,

karşılaştırmalı genomik genlerin ve düzenleyici elementlerinin tanımlanmasına

yardım edebilir. Birbiriyle uzak ilişkili türler arasında bile moleküler yollar ve iletişim

seviyesinde, korunmanın derecesi şaşırtıcıdır. Dikkat çekici bir örnek, nematod

Caenorhabditis elegans ve insanlar arasındaki insülin sinyal metabolik yolunun

korunmasıdır. Gerçekten, bilinen insan hastalık genlerinin %60’ına yakın bir kısmının

eşi, bu solucanda ve/veya diğer omurgasız model organizmalarda, meyve sineği

Drosophila melanogaster, bulunmaktadır. Bu da, insan genlerine benzeyenleri

ayırmaya yardımcı olabilen daha ileri metabolik yol bileşenlerinin aydınlatılmasında,

çalışmaların sorumlu organizmalara taşınmasına izin verir. Hatta hastalık

genlerimizin yaklaşık %30’nun akrabaları, hücre bölünmesi ve DNA onarımı gibi

yüksek oranda korunmuş fonksiyonları temsil edici mayada bulunmaktadır.

Fonksiyonel yorum için araçların sağlanması kadar, bu organizmalar hastalık

modelleri olarak kullanılabilirler. Örneğin, C.elegans’daki insülin sinyali metabolik yolu

tip 2 diabet için mükemmel bir model sağlamak için ayrılabilir.

Sekans ve /veya yapısal karşılaştırma, fonksiyonel yorumlama için yararlı ilk yardım

kaynağı olabilmesine rağmen, bilginin neden dikkatle işlenmesi ile ilgili çeşitli

nedenler vardır.

• Düşük karışıklıktaki bölgeler, çok çeşitli fonksiyonları ile birçok proteinde

bulunurlar. Transmembran domeynleri bu kategoriye girmektedir.

• Sekans benzerliği, fonksiyonel benzerliği garanti etmez. Bir miktar dizi çok

fonksiyonludur ve tamamen birbiriyle ilişkisi olmayan fonksiyonlarla

proteinlerde ortaya çıkmaktadır. Örneğin, α/β hidrolaz katlanmış formu

,fonksiyonu farklı birçok enzimde katalitik bölgeyi oluşturur aynı zamanda

hücre adhesyon moleküllerinde bulunur.

• Bazı proteinler evrim süresince sonradan kazanılmış ek fonksiyonlar içerirler.

İyi bir örnek, olağan metabolik enzimlerin kristalinler olarak güçlendirilmesidir.

Proteinler gözdeki lensin ışığı kırmasına izin verir.

27

• Fonksiyonun tanımlanmasında tüm araştırmacılar tarafından kullanılan dil aynı

değildir, iki anlamlılık yükselebilir. Son zamanlarda, fonksiyonel sınıflandırma

için terminolojiyi standardize etmek için düzenlenmiş girişimler bulunmaktadır.

• Veritabanları hata içermektedir. Bazıları yazım hatası iken bazıları deneysel

hata olarak artmaktadır. Sadece veritabanı bilgilerine göre yeni genlerin

yorumlanması ,diğer insanlarca yapılan hataları destekleyerek, risk oluşturur.

Son olarak, sekans benzerliğine dayalı birçok fonksiyonel tahminler, biyokimyasal

fonksiyon tahminleridir ve her zaman yardımcı olmayabilir. Örneğin, protein kinazı

kodlayan yeni bir genin bulunması mümkündür ama, bu proteinin yaygın rolü

hakkında herhangi bir bilgi sağlamaz. Proteinlerin hastalıklardaki rollerini de

kapsayan, hücresel veya biyolojik seviyedeki fonksiyonları hakkında daha fazla bilgi

gerekmektedir ve bu da sadece diğer tip çalışmalarla sağlanabilir.